Abstract
Este trabajo se basa en la cohesión y aplicación de diversas tecnologías presentes en el
mercado actual con el objetivo de conseguir desarrollar un sistema de posicionamiento
3D de personas presentes en imágenes 360°, donde por un lado se detecte las posiciones
exactas de las personas dentro de la imagen a través de redes de detección de objetos, y
por otro lado, a través de la aplicación de mecanismos de inteligencia artificial, se estime
las profundidades a las que se encuentran estas personas con respecto a dónde fue tomada
esa imagen 360°. Se destaca que para la rama del trabajo que tiene el objetivo la
estimación de la profundidad a la que se encuentran las personas, se consideran dos
posibles soluciones. Por un lado, encontramos la estimación de profundidad con una red
basada en las convoluciones tradicionales en este tipo de investigaciones, y por otro lado,
otra idea que se plantea en este proyecto con la incorporación de las convoluciones
esféricas a esta red de estimación de profundidad debido a su supuesta mejor adaptación
al aprendizaje en entornos 360º.
Para todo esto comentado anteriormente, en un inicio se ha procedido con el desarrollo
de la parte centrada en la detección de personas, que implementa algoritmos de detección
de objetos para personas adaptados al entorno de las imágenes 360º, aunque previamente
se incorpora un algoritmo de proyección de la imagen equirrectangular a perspectiva a fin
de poder realizar en esta detección de personas comentada. Posteriormente, se pasa a la
sección de estimación de profundidad de las imágenes 360º a través de inteligencia
artificial, presentado las dos soluciones planteadas en este trabajo y evaluando sus
resultados en el ámbito tratado.
Con todo ello, se pretende conseguir que a partir de la combinación de ambos mecanismos
principales (Detección de objetos y estimación de profundidad), resulte un proyecto que
identifique cada una de las personas presentes en una imagen 360º, facilitando su posición
en la imagen (coordenadas x, y), y la profundidad a la que se encuentra cada una de ellas
(z), de modo que se consiga un sistema de posicionamiento 3D. Se han utilizado librerías
tales como OpenCV y Pytorch para facilitar el procesamiento de las imágenes y la
creación y entrenamiento de las redes neuronales.