Focus of low–resolution images of nanoparticles using deep neural networks

Nevado Delgado, Julio (2023). Focus of low–resolution images of nanoparticles using deep neural networks. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Focus of low–resolution images of nanoparticles using deep neural networks
Author/s:
  • Nevado Delgado, Julio
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: July 2023
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_JULIO_NEVADO_DELGADO.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB)

Abstract

El presente trabajo de fin de master comenzará con un estudio detallado de los principales exponentes del actual estado del arte que han sido utilizados para abordar el problema de super-resolución. Entre ellos, aunque se comentará brevemente la existencia y características de otros métodos, nos centraremos en modelos de aprendizaje profundo donde haremos especial hincapié en dos de ellos: SRResNet o SRCNN y SRGAN, siendo este último, a grandes rasgos, el primero embebido en una arquitectura adversaria.

Otro de los tópicos clave a tratar serán las funciones de pérdida, haciendo especial énfasis en las funciones de pérdida perceptivas que serán las que principalmente nos permitan conseguir resultados realistas en las imágenes de super resolución generadas. Este tipo de funciones de pérdidas, en lugar de calcular el MSE pixel a pixel entre dos imágenes finales, lo hace entre dos tensores intermedios extraídos de una red neuronal utilizada para clasificación como por ejemplo VGG19. Este concepto es clave ya que, en lugar de calcular la función de pérdida entre las características de alto nivel de dos imágenes, calcula la pérdida en el espacio de características de bajo nivel. Ésto, permite a los modelos recuperar pequeños detalles como zonas de alta frecuencia, dando lugar a imágenes mucho más realistas.

Teniendo todo esto en cuenta, utilizaremos cuatro arquitecturas diferentes: SRResNet con MSE loss a nivel de pixel, SRResNet con función de pérdida perceptiva, SRGAN función de pérdida perceptiva y SRGAN con una combinación de función de pérdida perceptiva y MSE loss a nivel de pixel.

El presente documento terminará con un análisis de los resultados donde las imágenes generadas, así como las métricas basadas en histogramas mostrarán la utilidad de combinar una de función de pérdida perceptiva y la MSE loss a nivel de pixel en una arquitectura adversaria pera resolver el problema de super-resolución. Además, se estudiarán los beneficios derivados del uso de métricas basadas en histogramas frente a otros tipos de métricas tales como PSNR o MOS. Finalmente, se expondrán las principales dificultades encontradas durante la realización del presente trabajo de fin de master así como las decisiones tomadas para evitarlas.

ABSTRACT

Current master thesis, will start with a deep review on the main exponents on current state-of-the-art methods used to tackle single image super resolution (SISR) problem. After briefly going through interpolation-based and other non generative approaches, we will dive into generative methods, where two main architectures will be studied: SRResNet or SRCNN and SRGAN, which mainly embeds SRResNet into an adversarial architecture.

Another key concept widely discussed during current thesis will be loss functions, specially perceptual ones which will be the main enabler in achieving great quality super-resolved images. Perceptual loss functions, instead of computing element-wise MSE loss between final images, computes element-wise MSE loss between intermediate tensors from a discriminator network such as VGG19. This small clarification is key since instead of computing loss between high-level features of high-resolution and super-resolved images, computes loss at a low-level feature space, allowing models to also optimize fine details such as high frequency features.

Using these key concepts, four different architectures will be tested, specifically, SRResNet with pixel-wise MSE loss, SRResNet with perceptual loss, SRGAN with perceptual loss and SRGAN with a combination of perceptual loss and pixel-wise MSE loss.

The master thesis will end with a discussion of the results where the generated images, together with proposed histogram-based scoring will show the good performance of the combination of pixel-wise MSE loss and perceptual VGG19 loss in the SRGAN setting. Also, the adequacy of histogram-based distance scores will be addressed. Finally the main challenges faced during the development of the thesis will be raised together with the decisions taken to mitigate them.

More information

Item ID: 75898
DC Identifier: https://oa.upm.es/75898/
OAI Identifier: oai:oa.upm.es:75898
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 15 Sep 2023 09:43
Last Modified: 15 Sep 2023 09:43
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM