SARS-CoV-2 whole genome sequencing data analysis for national viral monitoring in public health

Mata Aroco, Pablo (2023). SARS-CoV-2 whole genome sequencing data analysis for national viral monitoring in public health. Tesis (Master), E.T.S. de Ingeniería Agronómica, Alimentaria y de Biosistemas (UPM).

Descripción

Título: SARS-CoV-2 whole genome sequencing data analysis for national viral monitoring in public health
Autor/es:
  • Mata Aroco, Pablo
Director/es:
Tipo de Documento: Tesis (Master)
Título del máster: Biología Computacional
Fecha: Mayo 2023
Materias:
ODS:
Escuela: E.T.S. de Ingeniería Agronómica, Alimentaria y de Biosistemas (UPM)
Departamento: Biotecnología - Biología Vegetal
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFM_PABLO_MATA_AROCO.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (2MB)

Resumen

Relecov es un proyecto español en proceso que tiene como objetivo proporcionar vigilancia genómica para el virus SARS-CoV-2 a nivel nacional. En este trabajo, se analizaron 2659 muestras proporcionadas por dos laboratorios de la red Relecov utilizando una versión modificada de una plataforma de análisis de secuenciación masiva del genoma (WGS) llamada Viralrecon. Los metadatos asociados con las muestras se procesaron siguiendo los principios FAIR y fueron subidos junto con los resultados del análisis a la base de datos de la plataforma Relecov. Para lograr esto, el paquete de herramientas Relecov-tools fue surtido de varias implementaciones y soluciones de errores. Los resultados de Viralrecon mostraron una incidencia significativa del linaje B.1.17 entre las muestras (65.11%), lo cual concuerda con los informes de salud pública en el momento de la recolección de las muestras. La mayoría de las mutaciones afectaron a los genes orf1ab y S, con un 46.77% y un 25.78% del total, respectivamente. Dentro del gen S, la mayoría de las mutaciones descubiertas fueron no-sinónimas (95.95%), con una predominancia de variantes de cambio de sentido o missense (79.99%). El dominio que presentó el mayor número de variantes fue la subunidad S1 (70.18%), y dentro de ella, los subdominios NTD y RBD (20.66% y 13.62%, respectivamente). Las secuencias de consenso obtenidas en el análisis se utilizaron junto con las de un lote de 2827 muestras extraídas de la base de datos de Relecov para realizar un análisis filogenético. La tasa de sustitución predicha coincide con la descrita en la literatura. Gracias a los metadatos asociados a cada muestra que proporcionaron resolución geográfica, se pudo observar la evolución del virus a nivel regional dentro de España, la cual concuerda con los informes de salud pública en el momento de la recolección de las muestras.

Abstract

Relecov is an ongoing spanish project aimed to provide genomic surveillance for SARS-CoV-2 on a national scale. In this work, 2659 samples provided by two laboratories from the Relecov network were analysed using a modified version of a WGS analysis pipeline called Viralrecon. The metadata associated with the samples was processed according to the FAIR principles and uploaded together with the results of the analysis into Relecov platform’s database. To achieve this, the Relecov-tools package was provided with several implementations and troubleshooting. The results from Viralrecon showed a major incidence of Lineage B.1.17 among the samples (65.11%), which concurs with the ones found in public health reports at the time the samples were collected. Most of the mutations affected orf1ab and gene S with a 46.77% and a 25.78% of the total respectively. Inside gene S, most mutations were non-synonymous (95.95%) with an acute predominance of missense variants (79.99%). The domain that presented the highest number of variants was the S1 subunit (70.18%) and inside it, the NTD and RBD sub-domains (20.66% and 13.62%). The consensus sequences obtained with the analysis were used along with the ones from a batch of 2827 samples extracted from in Relecov’s database to perform a phylogeny analysis. The predicted substitution rate matches with the one described in the literature. Thanks to the metadata with each sample that gave geographical resolution, the evolution of the virus could be observed on a regional level inside Spain, which ultimately matched with the public health reports at the time of collection of the samples

Más información

ID de Registro: 75342
Identificador DC: https://oa.upm.es/75342/
Identificador OAI: oai:oa.upm.es:75342
Depositado por: Biblioteca ETSI Agronómica, Alimentaria y de Biosistemas
Depositado el: 24 Jul 2023 10:17
Ultima Modificación: 24 Sep 2023 22:30