预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于reads引导的基因组序列拼接算法 随着高通量测序技术的快速发展,基因组学研究中测序数据的产生量也越来越大,基因组序列的拼接成为了研究中至关重要的步骤。传统的基因组序列拼接算法通常基于overlap-layout-consensus(OLC)或deBruijngraph(DBG)原理,但由于OLC算法需要大量的内存和处理时间,而DBG算法对基因组序列的高变异性有着固有的限制,因此不适用于高度异质的物种,如人类,从高通量测序数据中获取高质量完整基因组序列变得更加困难。 为了解决这些问题,越来越多的研究人员探索使用reads引导的基因组序列拼接算法。这种算法在使用传统的OLC或DBG算法之间插入reads去辅助序列的拼接,使得拼接结果质量更加高效准确。这种算法包括且不限于,HaploMerger、Spiral、Raven、wtdbg2、Flye等。 基于reads引导的基因组序列拼接算法中,Flye是其中较新的一种,它的主要特点是拥有多轮错误矫正和强大的重复剪切能力,可以轻松处理高度异质物种的基因组,得到高质量的完整基因组序列。 Flye算法首先使用高通量测序数据构建反向重叠图,然后找到具有最高覆盖率的部分序列,此时称该序列为主序列,同时找到所有跟随主序列的次要序列。接下来,Flye算法把所有的次要序列和主序列拼接起来,经过多轮的错误矫正后,得到了新的折叠图,并以此基础上再进行下一轮的拼接。 Flye算法相对于其他基于reads引导的拼接算法,具有显著的优点。首先,Flye算法在长序列和高质量数据下能保证高质量的拼接结果,可以快速的完成基因组拼接。其次,Flye算法的缺损剪切能力能够正确地去除基因组中重复序列的影响,提高了基因组拼接的精度。另外,Flye算法是开源的,是一种自由而又高效的基因组序列拼接算法。 Flye算法能够帮助我们更好地了解各种生命的基因组结构,并有利于我们对生物学的研究。同时,随着新技术的出现和新算法的不断发展,基于reads引导的基因组序列拼接算法也将继续发展,发挥越来越重要的作用。