Citation
Botas Miret, Jorge
(2021).
Anotación funcional de secuencias desconocidas vía
visualización de contexto genómico y filogenia = Functional annotation of unknown sequences via phylogenetic gene context visualization.
Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingeniería Agronómica, Alimentaria y de Biosistemas (UPM), Madrid.
Abstract
En la actualidad existen más de 220 millones de secuencias génicas únicas depositadas en bases de datos genómicas. Sólo 560,000 (0.2%) de éstas cuentan con algún tipo de anotación funcional validada experimental o manualmente. Con el propósito de aumentar esta cobertura, se han desarrollado métodos automáticos de predicción funcional. Los métodos de anotación aplicados de forma estandarizada y a gran escala se basan, casi exclusivamente, en la transferencia de información entre genes homólogos, cuya similitud de secuencia es suficiente para asumir un origen evolutivo común. No obstante, un elevado porcentaje de genes continúan sin predicciones funcionales debido a que no presentan similitud suficiente con ninguna otra secuencia caracterizada. Esta situación se ha visto exacerbada por el reciente incremento de secuenciación de grandes cantidades de material genético de microorganismos aún desconocidos en metagenómica. Uno de los métodos computacionales más fiables para la predicción funcional de genes desconocidos sin homólogos anotados consiste en el análisis de contexto genómico. Esta aproximación permite identificar potenciales operones funcionales: regiones genómicas donde la conservación de la orientación y posición relativa de los genes es evidente. Aunque el marco teórico y la fiabilidad de esta estrategia se ha corroborado en numerosos estudios previos, apenas existen herramientas que permitan su utilización a escala masiva, ya sea sobre bases de datos genómicas o metagenómicas. El laboratorio de Genómica Computacional, al cual se adscribe este trabajo, pretende precisamente estudiar de forma sistemática la vecindad genética de secuencias desconocidas para su anotación funcional. No obstante, debido a la naturaleza de estas predicciones funcionales se requiere su validación y depuración visual. De esta necesidad surge GeCoViz, una herramienta web para la visualización y análisis de conservación de contexto genómico bajo una perspectiva filogenética. En el presente trabajo se describe el desarrollo de dicha aplicación, así como ejemplos de su uso en la depuración de predicciones funcionales por estudio de contexto genómico con el objetivo de mejorar y complementar las anotaciones de las bases de datos genómicas y metagenómicas eggNOG y GMGC (Global Microbial Gene Catalogue). La herramienta bioinformática desarrollada posibilita la visualización del contexto genómico de cualquier familia génica, lo que representa una enorme ventaja a la hora de depurar las predicciones funcionales manualmente.