Proyectos
Estrategia computacional para detección y caracterización de bloques microsinténicos relacionados a regiones genómicas asociadas a domesticación en frijol Lima
Resumen
Para el ensamblaje de novo de un genoma existen una serie de paquetes de computador que difieren en términos de rendimiento, velocidad, escalabilidad y calidad del ensamblaje (Miller, Koren, & Sutton, 2010). La elección del programa ensamblador debe realizarse a partir de un análisis de la estructura de los datos provenientes de diferentes plataformas de secuenciamiento (Ekblom & Wolf, 2014) y del contexto biológico del organismo objeto de estudio. Para el caso de un genoma vegetal el ensamblaje impone retos computacionales debido al gran tamaño de los genomas, presencia de secuencias repetitivas y poliploidía (o paleoploidía) (Claros et al., 2012). A esto se suman las limitaciones de las técnicas de secuenciamiento en cuanto a la longitud de las lecturas, tasa de error, profundidad y cobertura. Para abordar dichos inconvenientes, los investigadores han optado por integrar diferentes tecnologías de secuenciamiento y programas ensambladores con el objetivo de obtener el mejor ensamblaje de acuerdo a las tecnologías disponibles. Actualmente para el ensamblaje de un genoma vegetal se cuenta con tecnologías de tercera generación que producen largas lecturas, en comparación con las tecnologías de segunda generación, pero son más costosas y con altas tasas de error (Goodwin, McPherson, & McCombie, 2016). En este sentido la tecnología 10X Genomics (Eisenstein, 2015) permite combinar las ventajas del secuenciamiento de moléculas largas de ADN (a través de lecturas conocidas como Linked-Reads que poseen el mismo código de barras) y el bajo costo y alta eficiencia de la plataforma Illumina (segunda generación) (10X Genomics, http://www.10xgenomics.com). No obstante, el uso de los códigos de barra usados en 10X Genomics desencadena la necesidad de desarrollar una estrategia diferente en cuanto al proceso de ensamblaje, el cual ha sido abordado por esta compañía a través de su pipeline Supernova. Sin embargo para 10X Genomics no se ha implementado una estrategia que permita integrar datos provenientes de otras tecnologías de secuenciamiento, como por ejemplo PacBio, plataforma que cuenta con paquetes como pacBioToC, ECTools, SPAdes, Cerluran y dbg2olc (Rhoads & Au, 2015), los cuales son fundamentados en el ensamblador Celera (Miller, Koren, & Sutton, 2010). La tecnología 10X ha sido aplicada en el ensamblaje de genomas humanos con excelentes resultados (Mostovoy et al., 2016), pero no ha sido aún evaluada para genomas vegetales. Producir el ensamblaje del genoma de una especie de interés (en el presente estudio es el frijol Lima, Phaseolus lunatus L.), es solo el primer paso puesto que se debe continuar con su anotación estructural y funcional (El-Metwally et al., 2014). Para ensamblar y anotar un genoma de novo de una especie no modelo como el frijol Lima, que no cuenta con mapas genéticos, ópticos o modelos preexistentes de los genes, se requiere considerar un enfoque comparativo con una especie como el frijol común (P. vulgaris L.) que posee mejores recursos genómicos, es evolutivamente muy cercana a frijol Lima (Delgado-Salinas et al.,2006) y con la cual solo presenta reordenamientos genómicos en pequeña escala (Almeida & Pedrosa-Harand, 2013). Lo anterior sin embargo no simplifica los retos para inferir genes ortólogos debido a la evolución dinámica de los genomas y la acumulación de cambios en éstos (Tekaia, 2016). Por lo expuesto anteriormente, en el presente trabajo se busca establecer una estrategia computacional que permita por un lado integrar diferentes herramientas bioinformáticas y datos generados por las librerías 10x Genomics, PacBio y librerías convencionales de Illumina a través de una pipeline para el ensamblaje de novo del genoma del frijol Lima, y por otro lado que permita anotar el genoma e identificar regiones microsinténicas a través de la comparación con especies evolutivamente cercanas en especial para identificar genes ortólogos que estén relacionados con procesos evolutivos como la domesticación.
Convocatoria
Nombre de la convocatoria:CONVOCATORIA NACIONAL PARA EL APOYO AL DESARROLLO DE TESIS DE POSGRADO O DE TRABAJOS FINALES DE ESPECIALIDADES EN EL ÁREA DE LA SALUD, DE LA UNIVERSIDAD NACIONAL DE COLOMBIA 2017-2018
Modalidad:Modalidad 2: Apoyo a tesis de maestría en la modalidad de investigación, en cualquier área del conocimiento, o de trabajos finales de especialidades en el área de la salud
Responsable