Aplicación de técnicas de aprendizaje automático para la fusión y clasificación de objetos sobre imágenes visibles y de profundidad

Silvestre Delgado, Mario (2019). Aplicación de técnicas de aprendizaje automático para la fusión y clasificación de objetos sobre imágenes visibles y de profundidad. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Description

Title: Aplicación de técnicas de aprendizaje automático para la fusión y clasificación de objetos sobre imágenes visibles y de profundidad
Author/s:
  • Silvestre Delgado, Mario
Contributor/s:
  • Otero Marnotes, Andres
  • Wisultschew Puigdellivol, Cristian
Item Type: Final Project
Degree: Grado en Ingeniería en Tecnologías Industriales
Date: September 2019
Subjects:
Faculty: E.T.S.I. Industriales (UPM)
Department: Automática, Ingeniería Eléctrica y Electrónica e Informática Industrial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (9MB)

Abstract

En el contexto de la robótica y otras aplicaciones en la industria que requieran un cierto nivel de automatización (líneas de montaje, servicios de vigilancia autónomos, etc), cada vez se necesita procesar la información proporcionada por los sensores con mayor rapidez. Habitualmente se han empleado soluciones de Cloud computing (computación en la capa de la nube), debido a la gran capacidad de cálculo del hardware empleado en esta capa. Sin embargo, los sistemas de comunicación entre el edge (donde se extraen los datos del entorno) y la nube constituyen un problema en cuanto a latencia y consumo de energía, motivo por el cual la computación se busca trasladarla en numerosos sistemas automatizados a la capa del edge. Además, para una mayor robustez y para desarrollar sistemas automatizados que realicen tareas más complejas, la información de los sensores se debe procesar conjuntamente, fusionando las características extraídas mediante algoritmos específicos. En los sistemas modernos se requerirá por tanto una computación rápida, de bajo coste energético y capaz de manejar elevados flujos de datos procedentes de diversos sensores. Para este procesamiento avanzado de la información, se han desarrollado soluciones basadas en inteligencia artificial, más concretamente en el aprendizaje automático (Machine Learning), que proporcionan un procesamiento con resultados muy precisos de los valores procedentes de los sensores. Así pues, se han logrado avances en materia de clasificación o detección de objetos (o también, por ejemplo, acciones en secuencias de vídeo) mediante el uso de arquitecturas de red neuronal, algoritmos de aprendizaje automático que simulan el comportamiento de las neuronas del cerebro humano a la hora de procesar la información que reciben del sistema nervioso. En el desarrollo este proyecto se han diseñado diversas arquitecturas de red neuronal convolucional (tipo de red neuronal cuyas operaciones están adaptadas para un procesamiento eficiente de imágenes) para la clasificación de objetos mediante la fusión de imágenes RGB (Red, Green, Blue, imágenes procedentes de sensores de imagen en color) e imágenes de profundidad, que muestran por cada píxel la profundidad de cada punto de la imagen en milímetros. La fusión de la información intrínseca a las imágenes de profundidad con las imágenes RGB proporciona al procesamiento de estas _ultimas robustez en situaciones de iluminación deficiente o excesiva, ya que las mediciones de los sensores de profundidad son invariantes respecto a la iluminación. Para el diseño de las redes neuronales convolucionales orientadas a la fusión de imágenes RGB con imágenes de profundidad, se han tomado como referencia distintas soluciones para la fusión de imágenes con redes neuronales, de entre las cuales destaca la fusión en las capas finales, que ofrece mejores resultados frente a fusiones más tempranas. De esta manera se ha llegado a diseñar tres arquitecturas de red neuronal para el proyecto. Gracias a esta modificación, la dinámica en el entrenamiento se acelera considerablemente para la red neuronal con fusión tardía, alcanzando valores de elevada precisión en tiempos hasta 10 veces inferiores. Por época se consigue reducir el tiempo hasta en 20 minutos, obteniendo en la inferencia pequeñas reducciones también en ciertas ocasiones. Después del entrenamiento y validación (procesamiento de imágenes sin actualización de las variables del modelo), en este caso usando un 20% del conjunto de imágenes de entrenamiento, se han implementado los modelos en el Movidius Neural Compute Stick (NCS), plataforma de computación en el edge de Intel. La inferencia en esta plataforma 10 Escuela Técnica Superior de Ingenieros Industriales de computación en el edge ha resultado infructuosa en cuanto a resultados de precisión, sin embargo ha permitido determinar cuáles de entre las tres alternativas de red neuronal para la fusión de imágenes RGB con imágenes de profundidad son más adecuadas para una inferencia rápida en tareas de clasificación de objetos. Como conclusión final del trabajo, de los resultados en la plataforma Movidius NCS en cuanto al tiempo que emplea cada una de las redes neuronales del proyecto, se concluye que las redes con fusión tardía proporcionan el mejor rendimiento respecto de la red con fusión intermedia, tardando casi la mitad que esta última. Entre la fusión con el máximo elemento a elemento y la fusión con concatenación de los vectores de clasificación, las diferencias de tiempo son ínfimas, del orden de milisegundos. Por tanto, la selección de un método u otro dependerá principalmente de si se requiere un entrenamiento completo de la red para su aplicación, ya que para lograr el entrenamiento de la red neuronal con fusión tardía calculando el máximo elemento a elemento se necesitará mucho más tiempo.

More information

Item ID: 56895
DC Identifier: http://oa.upm.es/56895/
OAI Identifier: oai:oa.upm.es:56895
Deposited by: Biblioteca ETSI Industriales
Deposited on: 15 Oct 2019 13:11
Last Modified: 15 Oct 2019 13:11
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM