Contribution to Object Extraction in Cartography : A Novel Deep Learning-Based Solution to Recognise, Segment and Post-Process the Road Transport Network as a Continuous Geospatial Element in High-Resolution Aerial Orthoimagery

Cira, Calimanut-Ionut ORCID: (2022). Contribution to Object Extraction in Cartography : A Novel Deep Learning-Based Solution to Recognise, Segment and Post-Process the Road Transport Network as a Continuous Geospatial Element in High-Resolution Aerial Orthoimagery. Thesis (Doctoral), E.T.S.I. en Topografía, Geodesia y Cartografía (UPM).


Title: Contribution to Object Extraction in Cartography : A Novel Deep Learning-Based Solution to Recognise, Segment and Post-Process the Road Transport Network as a Continuous Geospatial Element in High-Resolution Aerial Orthoimagery
Item Type: Thesis (Doctoral)
Read date: 7 March 2022
Freetext Keywords: Aerial Orthoimagery; Artificial Neural Network; Computer Vision; Conditional learning; Convolutional Neural Network; Deep Learning; Ensemble learning; Generative Adversarial Network; Generative Learning; Image Analysis; Image Classification; Image Inpainting; Image Post-processing; Image-to-Image Translation; Remote Sensing; Residual Learning; Road Extraction; Road Recognition; Road Surface Area; Segmentation models; Semantic Segmentation; Supervised Learning; Transfer Learning; Unsupervised Learning; Web-based Segmentation Solution
Faculty: E.T.S.I. en Topografía, Geodesia y Cartografía (UPM)
Department: Ingeniería Topográfica y Cartografía
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of CALIMANUT_IONUT_CIRA.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (11MB)


Remote sensing imagery combined with deep learning strategies is often regarded as an ideal solution for interpreting scenes and monitoring infrastructures with remarkable performance levels. Remote sensing experts have been actively using deep neural networks to solve object extraction tasks in high-resolution aerial imagery by means of supervised operations. However, the extraction operation is imperfect, due to the nature of remotely sensed images (noise, obstructions, etc.), the limitations of sensing resolution, or the occlusions often present in the scenes. The road network plays an important part in transportation and, nowadays, one of the main related challenges is keeping the existent cartographic support up to date. This task can be considered very challenging due to the complex nature of the geospatial object (continuous, with irregular geometry, and significant differences in width). We also need to take into account that secondary roads represent the largest part of the road transport network, but due to the absence of clearly defined edges, and the different spectral signatures of the materials used for pavement, monitoring, and mapping them represents a great effort for public administration, and their extraction is often omitted altogether. We believe that recent advancements in machine vision can enable a successful extraction of the road structures from high-resolution, remotely sensed imagery and a greater automation of the road mapping operation. In this PhD thesis, we leverage recent computer vision advances and propose a deep learning-based end-to-end solution, capable of efficiently extracting the surface area of roads at a large scale. The novel approach is based on a disjoint execution of three different image processing operations (recognition, semantic segmentation, and post-processing with conditional generative learning) within a common framework. We focused on improving the state-of-the-art results for each of the mentioned components, before incorporating the resulting models into the proposed solution architecture. For the recognition operation, we proposed two framework candidates based on convolutional neural networks to classify roads in openly available aerial orthoimages divided in tiles of 256×256 pixels, with a spatial resolution of 0.5 m. The frameworks are based on ensemble learning and transfer learning and combine weak classifiers to leverage the strengths of different state-of-the-art models that we heavily modified for computational efficiency. We evaluated their performance on unseen test data and compared the results with those obtained by the state-of-the-art convolutional neural networks trained for the same task, observing improvements in performance metrics of 2-3%. Secondly, we implemented hybrid semantic segmentation models (where the default backbones are replaced by neural network specialised in image segmentation) and trained them with high-resolution remote sensing imagery and their correspondent ground-truth masks. Our models achieved mean increases in performance metrics of 2.7-3.5%, when compared to the original state-of-the-art semantic segmentation architectures trained from scratch for the same task. The best-performing model was integrated on a web platform that handles the evaluation of large areas, the association of the semantic predictions with geographical coordinates, the conversion of the tiles’ format, and the generation of GeoTIFF results (compatible with geospatial databases). Thirdly, the road surface area extraction task is generally carried out via semantic segmentation over remotely sensed imagery—however, this supervised learning task can be considered very costly because it requires remote sensing images labelled at pixel level and the results are not always satisfactory (presence of discontinuities, overlooked connection points, or isolated road segments). We consider that unsupervised learning (not requiring labelled data) can be employed for post-processing the geometries of geospatial objects extracted via semantic segmentation. For this reason, we also approached the post-processing of the road surface areas obtained with the best performing segmentation model to improve the initial segmentation predictions. In this line, we proposed two post-processing operations based on conditional generative learning for deep inpainting and image-to-image translation operations and trained the networks to learn the distribution of the road network present in official cartography, using a novel dataset covering representative areas of Spain. The first proposed conditional Generative Adversarial Network (cGAN) model was trained for deep inpainting operation and obtained improvements in performance metrics of maximum 1.3%. The second cGAN model was trained for image-to-image translation, is based on a popular model heavily modified for computational efficiency (a 92.4% decrease in the number of parameters in the generator network and a 61.3% decrease in the discriminator network), and achieved a maximum increase of 11.6% in performance metrics. We also conducted a qualitative comparison to visually assess the effectiveness of the generative operations and observed great improvements with respect to the initial semantic segmentation predictions. Lastly, we proposed an end-to-end processing strategy that combines image classification, semantic segmentation, and post-processing operations to extract containing road surface area extraction from high-resolution aerial orthophotography. The training of the model components was carried out on a large-scale dataset containing more than 537,500 tiles, covering approximately 20,800 km2 of the Spanish territory, manually tagged at pixel level. The consecutive execution of the resulting deep learning models delivered higher quality results when compared to state-of-the-art implementations trained for the same task. The versatility and flexibility of the solution given by the disjointed execution of the three separate sub-operations proved its effectiveness and economic efficiency and enables the integration of a web application that alleviates the manipulation of geospatial data, while allowing for an easy integration of future models and algorithms. Resuming, applying the proposed models resulted from this PhD thesis translates to operations aimed to check if the latest existing aerial orthoimages contains the studied continuous geospatial element, to obtain an approximation of its surface area using supervised learning and to improve the initial segmentation results with post-processing methods based on conditional generative learning. The results obtained with the proposed end-to-end-solution presented in this PhD thesis improve the state-of-the-art in the field of road extraction with deep learning techniques and prove the appropriateness of applying the proposed extraction workflow for a more robust and more efficient extraction operation of the road transport network. We strongly believe that the processing strategy can be applied to enhance other similar extraction tasks of continuous geospatial elements (such as the mapping of riverbeds, or railroads), or serve as a base for developing additional extraction workflows of geospatial objects from remote sensing images. ----------RESUMEN---------- Las imágenes de teledetección combinadas con estrategias de aprendizaje profundo suelen considerarse una solución ideal para interpretar escenas y monitorear infraestructuras con buenos niveles de rendimiento. Los expertos en teledetección han utilizado activamente redes neuronales profundas para resolver tareas de extracción de objetos en imágenes aéreas de alta resolución mediante aprendizaje supervisado. Sin embargo, la operación de extracción es imperfecta, debido a la naturaleza de las imágenes de teledetección (ruido, obstrucciones, etc.), a las limitaciones de la resolución de las imágenes o a las oclusiones presentes a menudo en las escenas. La red de carreteras desempeña un papel importante en el transporte y, en la actualidad, mantener actualizado el soporte cartográfico existente representa un gran reto para el estado, tarea que puede considerarse un gran desafío debido a la naturaleza compleja del objeto geoespacial (continuo, con geometría irregular y diferencias significativas de anchura). También hay que tener en cuenta que las carreteras secundarias representan la mayor parte de la red de transporte por carretera, pero debido a la ausencia de bordes claramente definidos, y a las diferentes firmas espectrales de los materiales utilizados para el pavimento, su seguimiento y cartografía representa un gran esfuerzo para la administración pública, y su actualización, a menudo, no se realiza. Consideramos que los recientes avances en visión artificial pueden permitir una extracción exitosa de las estructuras de las carreteras a partir de imágenes de alta resolución obtenidas por medios de teledetección y permiten una mayor automatización de la construcción de mapas de las carreteras. En esta tesis doctoral, aprovechamos los recientes avances en visión artificial y proponemos una solución integral basada en el aprendizaje profundo, capaz de extraer eficientemente la superficie de las carreteras a gran escala. La novedad de nuestro enfoque se basa en una ejecución disjunta de tres operaciones diferentes de procesamiento de imágenes (reconocimiento, segmentación semántica y postprocesamiento con aprendizaje generativo condicional) dentro de un marco común. Nos centraremos en mejorar los resultados del estado del arte para cada uno de los componentes mencionados, para después unificar los modelos resultantes en una arquitectura integrada. En la operación de reconocimiento, proponemos dos marcos candidatos basados en redes neuronales convolucionales para clasificar carreteras en ortoimágenes aéreas de libre acceso divididas en teselas de 256×256 píxeles, con una resolución espacial de 0,5 m. Los marcos se basan en conjuntos de modelos y transferencia de aprendizaje y combinan clasificadores débiles para aprovechar los puntos fuertes de diferentes modelos usados en el estado del arte. Estos modelos son además modificados para obtener una mayor eficiencia computacional. Evaluamos el rendimiento de los marcos de reconocimiento en datos de prueba desconocidos por el sistema y comparamos los resultados con los obtenidos por las redes neuronales convolucionales del estado del arte entrenadas para la misma tarea, observando mejoras en las métricas de rendimiento del 2-3%. En segundo lugar, implementamos modelos híbridos de segmentación semántica (en los que las redes básicas (Ingles: «backbones») por defecto se sustituyen por redes neuronales especializadas en segmentación de imágenes) y los entrenamos con imágenes de teledetección de alta resolución y sus correspondientes máscaras con la realidad del terreno. Nuestros modelos lograron incrementos medios en las métricas de rendimiento de entre el 2,7 y el 3,5%, en comparación con la última generación de arquitecturas de segmentación semántica entrenadas desde cero para la misma tarea. El modelo con mejores resultados se ha integrado en una plataforma web que se encarga de la evaluación de grandes extensiones de territorio, la asociación de las predicciones semánticas con coordenadas geográficas, la conversión del formato de los mosaicos, y la generación de resultados GeoTIFF (compatibles con bases de datos geoespaciales). En tercer lugar, la tarea de extracción de los pixeles correspondientes a las carreteras se realiza generalmente mediante segmentación semántica sobre imágenes de teledetección; sin embargo, realizar esta tarea con aprendizaje supervisado puede considerarse muy costoso porque requiere imágenes de teledetección etiquetadas a nivel de píxel y los resultados no siempre son satisfactorios (presencia de discontinuidades, puntos de conexión omitidos, o segmentos de carretera aislados). Consideramos que, para el postprocesamiento de las geometrías de los objetos geoespaciales extraídos mediante la segmentación semántica, se puede utilizar el aprendizaje no supervisado (que no requiere datos etiquetados). Por este motivo, también abordamos el postprocesamiento de las regiones de carreteras obtenidas con el modelo de segmentación de mejor rendimiento para mejorar la segmentación inicial. En esta línea, hemos propuesto dos operaciones de postprocesamiento basadas en el aprendizaje generativo condicional para operaciones de reconstrucción de imágenes (Ingles: «deep inpainting») y de traducción de imagen a imagen (Ingles: «image-to-image translation») y hemos entrenado las redes para aprender la distribución de la red de carreteras presente en la cartografía oficial, utilizando un novedoso conjunto de datos que cubre zonas representativas de España. El primer modelo generativo condicional con adversario propuesto fue entrenado para la operación de reconstrucción de imágenes (Ingles: «image inpainting») y obtuvo mejoras en las métricas de rendimiento de un máximo del 1,3%. El segundo modelo cGAN, fue entrenado para la traducción de imagen a imagen, y se basa en un modelo del estado del arte, modificado para la eficiencia computacional (una disminución del 92,4% en el número de parámetros en la red generadora y una disminución del 61,3% en la red discriminadora). Este modelo logró un aumento máximo del 11,6% en las métricas de rendimiento. También realizamos una comparación cualitativa para evaluar visualmente la eficacia de las operaciones generativas y observamos grandes mejoras con respecto a las predicciones iniciales de segmentación semántica. Por último, hemos propuesto una estrategia de procesamiento integral que combina la clasificación de imágenes, la segmentación semántica y las operaciones de postprocesamiento para extraer las regiones correspondientes a carreteras a partir de la ortofotografía aérea de alta resolución. El entrenamiento de todos los modelos que la componen se llevó a cabo sobre un conjunto de datos que contenía más de 537.500 teselas, y cubría aproximadamente 20.800 km2 del territorio español, etiquetado manualmente a nivel de píxel. La ejecución consecutiva de los modelos de aprendizaje profundo resultantes ofreció resultados de mayor calidad que las implementaciones del estado del arte entrenadas para la misma tarea. La versatilidad y flexibilidad de la solución dada por la ejecución separada de las tres sub-operaciones demostró su eficacia y eficiencia económica y se integró en una aplicación web para facilitar la manipulación de datos geoespaciales, a la vez que permite una fácil integración de futuros modelos y algoritmos. Resumiendo, la aplicación de los modelos propuestos resultantes de esta tesis doctoral se traduce en operaciones de aprendizaje profundo aplicadas para comprobar si las últimas ortoimágenes aéreas existentes contienen el elemento geoespacial continuo estudiado, para obtener una aproximación de su superficie mediante el aprendizaje supervisado y para mejorar los resultados de la segmentación inicial con métodos de postprocesamiento basados en el aprendizaje generativo condicional. Los resultados obtenidos con la solución propuesta en esta tesis doctoral mejoran el estado del arte en el campo de la extracción de carreteras con técnicas de aprendizaje profundo y demuestran la idoneidad de aplicar el flujo de trabajo propuesto para una extracción más robusta y eficiente de la red de transporte por carretera. Creemos firmemente que esta estrategia de procesamiento puede aplicarse para mejorar otras tareas similares de extracción de elementos geoespaciales continuos (como la cartografía de cauces de ríos, o de vías férreas), o servir de base para desarrollar flujos de trabajo adicionales de extracción de objetos geoespaciales a partir de imágenes de teledetección.

More information

Item ID: 70152
DC Identifier:
OAI Identifier:
DOI: 10.20868/UPM.thesis.70152
Deposited by: Archivo Digital UPM 2
Deposited on: 30 Mar 2022 08:16
Last Modified: 29 Sep 2022 22:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM