Influence of tile size on the quality of recognition and extraction of roads and paths in orthophotographs with deep learning

Fernández Valladolid, Víctor (2021). Influence of tile size on the quality of recognition and extraction of roads and paths in orthophotographs with deep learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. en Topografía, Geodesia y Cartografía (UPM), Madrid.

Description

Title: Influence of tile size on the quality of recognition and extraction of roads and paths in orthophotographs with deep learning
Author/s:
  • Fernández Valladolid, Víctor
Contributor/s:
Item Type: Final Project
Degree: Grado en Ingeniería de las Tecnologías de la Información Geoespacial
Date: September 2021
Subjects:
Freetext Keywords: Teledetección; Procesamiento de imágenes; Sistemas inteligentes; Deep learning
Faculty: E.T.S.I. en Topografía, Geodesia y Cartografía (UPM)
Department: Ingeniería Topográfica y Cartografía
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFG_VICTOR_FERNANDEZ_VALLADOLID.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB)

Abstract

La red de caminos y carreteras tiene una gran importancia en la red de transportes, y requiere de una constante actualización. A veces, esto no es tan fácil de realizar porque, por ejemplo, en redes de carreteras secundarias, la digitalización y representación cartográfica resulta una ardua tarea debido a numerosos obstáculos que surgen durante el proceso: distintas anchuras de los caminos, presencia de oclusiones o trazados pobremente definidos; por este motivo, mediante redes convolucionales que toman de entrada imágenes de distintos tamaños de tesela (256x256, 512x512 o 1024x1024) de alta resolución, se realiza esta actualización. Por otro lado, las redes de segmentación semántica se encargan de generar las máscaras de dichos caminos a partir de las teselas previamente mencionadas. Para llevar a cabo este análisis, tres redes neuronales artificiales se usan para cada tamaño de tesela, así como dependiendo de la tarea de Aprendizaje Profundo a realizar (reconocimiento o segmentación semántica). Para reconocimiento de imágenes se usa las redes VGG-v1, VGG-v2 y unas VGG que se han construido desde cero. En cuanto a la segmentación semántica, se han usado dos arquitecturas que se apoyan en U-Net: SeResNeXt50 e InceptionResNetv2, y una que usa LinkNet como codificador: EfficientNetb5. El tamaño óptimo de tesela se ha seleccionado basado en la comparación de métricas en los resultados de cada modelo en imágenes que la red no ha visto previamente en función de la pérdida, precisión, exhaustividad, exactitud, F1-score, AUC-ROC, o IoU score. En la tarea de clasificación o reconocimiento, el tamaño de 512x512 píxeles es el que mejor ha rendido, con una diferencia notable respecto a los otros dos tamaños. Para la operación de segmentación semántica, se ha requerido de un doble análisis debido a que la diferencia de resultados no era tan amplia, una interpretación cuantitativa, y otra cualitativa. Con ambos puntos de vista, se ha comprobado que nuevamente el tamaño intermedio es el que devuelve mejores resultados. Por ello, tras este trabajo, se puede decir que, si ha de realizarse una extracción a gran escala y reconocimiento, recomendaría las orto imágenes con tamaño de tesela de 512x512.
Abstract:
The road and highway network represent an important part in the transport network, and requires a constant update. This is not often an easy task to do as, for example, in the case of secondary road networks, the cartographic representation is a difficult task to perform, due to numerous obstacles that arises during the process: a variety of path’s widths, the presence of occlusions or poorly defined edges and layouts ; for this reason, convolutional neural networks are being used which, from an input of images from different tile sizes (such as 256, 512 or 1024) of high resolution orthoimages, this challenge is solved. On the other hand, semantic segmentation networks are employed to generate the geometries from the previously mentioned different sizes of tiles. The purpose of this work is to study which tile size (256x256, 512x512, 1024x1024) is more appropriate for obtaining a more accurate cartographic representation. For this analysis, three different artificial neural networks are used for each tile size and Deep Learning task (either Image Recognition or Segmentation). For image recognition, VGG-v1, VGGv2 and VGG-from-scratch have been trained. In the case of semantic segmentation, two architectures based on U-Net have been implemented: SeResNeXt50 and InceptionResNetv2, and one that uses LinkNet as encoder: EfficientNetb5. The optimal tile size has been selected based on the metrical comparison of the performance achieved by the models on unseen data in terms of loss, accuracy, recall, precision, F1-score, AUC-ROC or IoU score. In the classification or image recognition task, the highest results are obtained by the models trained on 512x512, with a remarkable difference with respect to the other two sizes. In the case of the semantic segmentation operation, in
addition to a quantitative interpretation, a qualitative analysis by means of perceptual validation has been carried out in order to assess the significance of the computer performance metrics. Once these two points of views have been taken into consideration, it has been proven that, once again the intermediate size delivers the best results. Hence, after this work, it can be affirmed that, if a large-scale extraction and recognition of the roads is pursued, I recommend considering a tile size of 512x512.

More information

Item ID: 70501
DC Identifier: https://oa.upm.es/70501/
OAI Identifier: oai:oa.upm.es:70501
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 20 May 2022 13:10
Last Modified: 20 Jul 2022 22:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM