Texto completo
|
PDF (Portable Document Format)
- Acceso permitido solamente a usuarios en el campus de la UPM
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (6MB) |
| Título: | Evaluación del rendimiento obtenido por redes neuronales artificiales entrenadas con técnicas de segmentación semántica para la extracción multiclase sobre imágenes panorámicas 360° |
|---|---|
| Autor/es: |
|
| Director/es: |
|
| Tipo de Documento: | Trabajo Fin de Grado o Proyecto Fin de Carrera |
| Grado: | Grado en Ingeniería de las Tecnologías de la Información Geoespacial |
| Fecha: | Junio 2023 |
| Materias: | |
| ODS: | |
| Palabras Clave Informales: | Inteligencia Artificial, Aprendizaje Profundo, Redes Neuronales Artificiales, Visión Computacional, Segmentación Semántica, Python, Imágenes Panorámicas, PyTorch, Redes Neuronales Equiconvolucionales |
| Escuela: | E.T.S.I. en Topografía, Geodesia y Cartografía (UPM) |
| Departamento: | Ingeniería Topográfica y Cartografía |
| Licencias Creative Commons: | Reconocimiento - Sin obra derivada - No comercial |
|
PDF (Portable Document Format)
- Acceso permitido solamente a usuarios en el campus de la UPM
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (6MB) |
Resumen:
Este Trabajo de Fin de Grado (TFG) evalúa cuantitativa y cualitativamente el desempeño de diversas arquitecturas de redes neuronales en la tarea de segmentación semántica multiclase de imágenes panorámicas equirectangulares. Para ello, se ha llevado a cabo una exhaustiva revisión de los principios fundamentales del aprendizaje profundo, la arquitectura de las redes neuronales, tanto artificiales como convolucionales, y sus respectivos procesos de entrenamiento.
Las arquitecturas de redes neuronales examinadas comprenden U-Net con distintos backbones, como Resnet18, VGG16_bn, VGG13_bn, EfficientNetB0 y MobileNetv2, utilizando el conjunto de datos CVRG-Pano.
Nuestros resultados indican que la arquitectura de red neuronal convolucional U-Net Resnet18 supera en precisión a su adaptación equiconvolucional, en la segmentación semántica multiclase de imágenes panorámicas equirectangulares. A pesar de que la adaptación equiconvolucional está específicamente diseñada para trabajar con este tipo de imágenes, la arquitectura convolucional, caracterizada por su sencillez y eficiencia computacional, ha demostrado una mayor capacidad para aprender patrones relevantes, incluso en presencia de distorsiones.
En relación con el resto de las arquitecturas de redes neuronales examinadas, todas demostraron resultados satisfactorios en la segmentación semántica multiclase. Sin embargo, U-Net VGG13_bn tuvo el rendimiento más destacado con un IoU score del 74%. Por otro lado, U-Net VGG16_bn obtuvo un rendimiento ligeramente inferior con un IoU score cercano al 73%. En comparación, U-Net Resnet18 y U-Net MobileNetv2 lograron un IoU score del 70%, aunque MobileNetv2 requirió considerablemente menos tiempo de entrenamiento. En cuanto a U-Net EfficientNetB0, a pesar de no alcanzar los mejores resultados, destacó por su habilidad para equilibrar precisión y complejidad computacional, obteniendo un IoU score cercano al 66%.
Estos hallazgos evidencian que, para las escenas analizadas, la arquitectura convolucional es más adecuada que su adaptación equiconvolucional en tareas de segmentación semántica multiclase. Además, los resultados subrayan la necesidad de seleccionar cuidadosamente la arquitectura de red neuronal, considerando las demandas del problema y las limitaciones de los recursos computacionales.
Abstract:
This Final Degree Project (TFG) evaluates quantitatively and qualitatively the performance of different neural network architectures on the task of multi-class semantic segmentation of equirectangular panoramic images. For this purpose, a comprehensive review of the basic principles of deep learning, the architecture of neural networks, both artificial and convolutional, and their respective training processes has been carried out.
The neural network architectures studied include U-Net with different backbones, such as Resnet18, VGG16_bn, VGG13_bn, EfficientNetB0 and MobileNetv2, using the CVRG-Pano dataset.
Our results show that the U-Net convolutional neural network architecture Resnet18 outperforms its equiconvolutional adaptation in accuracy for multi-class semantic segmentation of equirectangular panoramic images. Although the equiconvolutional adaptation is specifically designed to work with this type of images, the convolutional architecture, characterised by its simplicity and computational efficiency, has shown a greater ability to learn relevant patterns even in the presence of distortions.
As for the rest of the neural network architectures studied, all of them showed satisfactory results in multiclass semantic segmentation. However, U-Net VGG13_bn performed best with an IoU score of 74%. On the other hand, U-Net VGG16_bn performed slightly worse with an IoU score close to 73%. In comparison, U-Net Resnet18 and U-Net MobileNetv2 achieved an IoU score of 70%, although MobileNetv2 required significantly less training time. U-Net EfficientNetB0, while not achieving the best results, stood out for its ability to balance accuracy and computational complexity, achieving an IoU score close to 66%.
These results show that, for the scenes analysed, the convolutional architecture is more suitable than its equiconvolutional adaptation in multiclass semantic segmentation tasks. Furthermore, the results highlight the need to carefully select the neural network architecture, taking into account the requirements of the problem and the limitations of computational resources.
| ID de Registro: | 80279 |
|---|---|
| Identificador DC: | https://oa.upm.es/80279/ |
| Identificador OAI: | oai:oa.upm.es:80279 |
| Depositado por: | Biblioteca Universitaria Campus Sur |
| Depositado el: | 19 Feb 2024 20:19 |
| Ultima Modificación: | 19 Feb 2024 20:19 |
Publicar en el Archivo Digital desde el Portal Científico