Análisis y mejora de modelos de representación de escenas 3D: un enfoque desde NeRF hasta DS-NeRF

Hernández Herrera, Alejandro (2025). Análisis y mejora de modelos de representación de escenas 3D: un enfoque desde NeRF hasta DS-NeRF. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S.I. y Sistemas de Telecomunicación (UPM).

Descripción

Título: Análisis y mejora de modelos de representación de escenas 3D: un enfoque desde NeRF hasta DS-NeRF
Autor/es:
  • Hernández Herrera, Alejandro
Director/es:
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado: Grado en Ingeniería Telemática
Fecha: 12 Mayo 2025
Materias:
ODS:
Escuela: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Departamento: Ingeniería Telemática y Electrónica
Licencias Creative Commons: Reconocimiento - Compartir igual

Texto completo

[thumbnail of TFG_Alejandro_Hernandez_Herrera_b.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (8MB)

Resumen

En los últimos años, la reconstrucción tridimensional y la visión por ordenador han experimentado un crecimiento significativo en campos como la realidad aumentada, la realidad virtual, la cinematografía, la medicina y la ingeniería. Estas disciplinas permiten la creación de modelos tridimensionales detallados y precisos a partir de datos bidimensionales, impulsando avances en sectores como la planificación quirúrgica, la navegación autónoma y la preservación del patrimonio cultural. Dentro de este contexto, los modelos Neural Radiance Fields (NeRF) han emergido como una herramienta poderosa para generar representaciones tridimensionales de alta calidad a partir de un conjunto limitado de imágenes. A través del uso de redes neuronales profundas, NeRF aprende una representación de la densidad volumétrica y el color de una escena, permitiendo la síntesis de nuevas vistas desde diferentes perspectivas. Sin embargo, a pesar de sus logros, NeRF presenta limitaciones importantes, como su dificultad para gestionar oclusiones complejas y la necesidad de una gran cantidad de imágenes de referencia para generar reconstrucciones precisas en determinados escenarios. Para abordar estas limitaciones, se han desarrollado variantes como Depth Supervised NeRF (DS-NeRF), que incorpora supervisión de la profundidad para mejorar la precisión geométrica y reducir los ar tefactos presentes en las representaciones generadas. Este proyecto se motiva por el interés de evaluar a fondo el impacto de la supervisión de la profundidad en la reconstrucción tridimensional, así como de proponer y probar modificaciones que optimicen tanto el rendimiento como la calidad visual en diversas condiciones, contribuyendo al desarrollo de tecnologías más robustas y eficientes aplicables en múltiples campos. El primer objetivo de este Proyecto de Fin de Grado es explorar, analizar y comparar el rendimiento de estos modelos para determinar si la técnica de supervisión de la profundidad propuesta por DS-NeRF representa un avance respecto a la tecnología original. Los resultados obtenidos en este apartado muestran que, aunque DS-NeRF propone un enfoque innovador mediante la supervisión por profundidad, no supera consistentemente a NeRF en cuanto a calidad de imagen, velocidad de entrenamiento o escalabilidad. La introducción de mapas de profundi dad en DS-NeRF parece ser más beneficiosa en escenarios un número de vistas extremadamente limitado (de 2 a 5), pero cuando se incrementa el número de vistas a 10 o más, NeRF muestra un desempeño superior, especialmente en escenas con texturas complejas. Además, DS-NeRF presenta una mayor carga computacional que deriva en una velocidad de entrenamiento significativamente inferior. Esto refuerza la idea de que NeRF sigue siendo un modelo más robusto y escalable para la reconstrucción tridimensional en condiciones estándar, mientras que DS-NeRF podría tener aplicaciones más específicas en escenarios donde la información de profundidad sea crítica y el número de vistas sea limitado. A fin de seguir explorando y optimizando el concepto que propone DS-NeRF, este proyecto también tiene como objetivo la implementación y evaluación de dos modificaciones, utilizando cámaras Microsoft Azure Kinect DK para obtener información de profundidad. Estas cámaras ofrecen datos precisos mediante sensores de tipo Time of Flight (ToF), que se integran en el proceso de entrenamiento de las redes neuronales para mejorar la reconstrucción tridimensional. Las pruebas realizadas han demostrado que, aunque ambas variantes mejoran la reconstrucción geométrica de las escenas, persisten problemas como sombras y falta de nitidez en la reconstrucción del color, atribuibles a inconsistencias en los datos de profundidad derivados de los errores inherentes a los sensores ToF. El hecho de que la mejora en la representación de la profundidad no se traduzca en una mejora en el renderizado de color refuerza la idea de que ambos objetivos no siempre están alineados. Un modelado tridimensional óptimo no necesariamente garantiza una mejora en la representación del color y, de hecho, puede incluso afectar negativamente a esta. A pesar de estas limitaciones, las versiones modificadas de DS-NeRF muestran una mayor precisión en la reconstrucción geométrica en comparación con DS-NeRF, y una de ellas ofrece además una mayor eficiencia en el tiempo de entrenamiento.

Más información

ID de Registro: 90356
Identificador DC: https://oa.upm.es/90356/
Identificador OAI: oai:oa.upm.es:90356
URL Oficial: https://github.com/alejandrohh108/nerf-azurekinect...
Depositado por: Alejandro Hernández Herrera
Depositado el: 03 Ago 2025 18:24
Ultima Modificación: 23 Oct 2025 17:06