Estructuras de datos espaciadas para el ensamblaje de novo
Autores: Inanç, Birol; Justin, Chu; Hamid, Mohamadi; Shaun D., Jackman; Karthika, Raghavan; Benjamin P., Vandervalk; Anthony, Raymond; René L., Warren
Idioma: Inglés
Editor: Hindawi Publishing Corporation
Año: 2015
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 14
Citaciones: Sin citaciones
El ensamblaje de novo del genoma de una especie es esencial en ausencia de una secuencia genómica de referencia. Muchos algoritmos de ensamblaje escalables utilizan el paradigma del grafo de Bruijn (DBG) para reconstruir genomas, en el que se obtiene una tabla de subsecuencias de cierta longitud a partir de las lecturas y se analizan sus solapamientos para ensamblar secuencias. A pesar de que las subsecuencias más largas desbloquean características genómicas más largas para el ensamblaje, el aumento asociado de los recursos informáticos limita la viabilidad del DBG frente a otros arquetipos de ensamblaje ya diseñados para lecturas más largas. Aquí revisamos el paradigma DBG para adaptarlo al cambiante panorama de la tecnología de secuenciación e introducimos tres diseños de estructuras de datos para semillas espaciadas en forma de subsecuencias emparejadas. Estas estructuras de datos abordan las limitaciones de memoria y tiempo de ejecución impuestas por las lecturas más largas. Observamos que cuando una distancia fija separa pares de semillas, proporciona una mayor especificidad de secuencia con una mayor longitud de intervalo. Además, observamos que los filtros Bloom serían adecuados para almacenar implícitamente semillas espaciadas y ser tolerantes a los errores de secuenciación. Partiendo de este concepto, describimos una estructura de datos para rastrear las frecuencias de las semillas espaciadas observadas. Estos diseños de estructuras de datos tendrán aplicaciones en ensamblajes de genomas, transcriptomas y metagenomas, y en la corrección de errores de lectura.
Descripción
El ensamblaje de novo del genoma de una especie es esencial en ausencia de una secuencia genómica de referencia. Muchos algoritmos de ensamblaje escalables utilizan el paradigma del grafo de Bruijn (DBG) para reconstruir genomas, en el que se obtiene una tabla de subsecuencias de cierta longitud a partir de las lecturas y se analizan sus solapamientos para ensamblar secuencias. A pesar de que las subsecuencias más largas desbloquean características genómicas más largas para el ensamblaje, el aumento asociado de los recursos informáticos limita la viabilidad del DBG frente a otros arquetipos de ensamblaje ya diseñados para lecturas más largas. Aquí revisamos el paradigma DBG para adaptarlo al cambiante panorama de la tecnología de secuenciación e introducimos tres diseños de estructuras de datos para semillas espaciadas en forma de subsecuencias emparejadas. Estas estructuras de datos abordan las limitaciones de memoria y tiempo de ejecución impuestas por las lecturas más largas. Observamos que cuando una distancia fija separa pares de semillas, proporciona una mayor especificidad de secuencia con una mayor longitud de intervalo. Además, observamos que los filtros Bloom serían adecuados para almacenar implícitamente semillas espaciadas y ser tolerantes a los errores de secuenciación. Partiendo de este concepto, describimos una estructura de datos para rastrear las frecuencias de las semillas espaciadas observadas. Estos diseños de estructuras de datos tendrán aplicaciones en ensamblajes de genomas, transcriptomas y metagenomas, y en la corrección de errores de lectura.