预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于RNA测序技术的转录组从头拼接算法研究 随着二代高通量测序技术的快速发展,RNA测序已成为研究转录组的主要手段之一。基于RNA测序数据(RNA-Seq)的从头拼接算法可以有效地修复剪接异构体(splicevariants),并推断转录本(transcripts)、基因(genes)的表达水平和功能分析,对于解析基因组结构和功能,及表观遗传调控方面的研究具有重要的意义。 RNA-Seq测序技术获取转录组数据 RNA测序的样品一般采用RNA提取后提取RNA的多种方法,包括直接提取RNA、多聚酸选择和全面聚酸选择等。RNA被逆转录为cDNA,再通过文库构建、测序和分析,可以获得高度定量和高分辨率的转录组表达数据。 从头拼接算法 虽然比对算法可在转录组测序数据中快速准确地发现可变剪切事件。但是考虑到文库中可能存在表达差异较大的剪接亚型,这些变化都不能被细致地描绘出来。为此,研究人员提出了基于RNA-Seq数据的从头拼接算法,如Tophat、Cufflinks和StringTie等,可以从原始序列数据中构建剪接图(splicegraph),描述序列上有多少条剪接路径,同时发掘和分析转录本和基因的结构和表达水平。在这些算法中,首先对RNA-Seq数据进行质量控制,包括过滤低质量序列,去除连接接头和降序列质,再进行从头拼接。在SpliceMap和GMAP中,先通过比对转录组序列对基因组DNA进行反转录映射,然后根据反转录映射结果进行拼接,拼接后还需要进行过滤和剪接校准,最终得到传统的转录本和基因。而Tophat通过索引比对策略,先将所有可以用于比对的基因组位置建立索引库,再对RNA-Seqreads进行比对和排序,最终得到转录本和基因信息。 从头拼接算法存在的问题 然而,RNA转录组结构复杂,导致数据噪声较大,在进行decode等操作后,会有较多错配和缺失。常见的问题包括:虚假的拼接点、短转录本的误添加、长转录本的误判定、零位点过低、区域太大等。此外,由于同一基因不同转录本之间的表达差异较大,同一基因的多个转录本的表达量在实验数据中也不能保证一致。这些问题长期以来挑战着从头拼接算法的准确度和适应性。 更新的从头拼接算法 为了解决旧算法的问题,新的算法不断涌现,包括TransFuse、Class2、Trinity等。这些新算法通过使用长reads、二代和三代混合技术、采用图论等更加科学的算法,尝试提高剪接公因子的识别准确性和拼接回归能力。其中,TransFuse是基于蛋白质-磷脂互作网络(PIN)的拼接算法,通过PIN中启发式规则和拼接原则,对原始reads进行拼接,最终得到准确的基因剪接图;Class2针对识别全长转录本的缺陷,采用图的划分和结点合并等算法处理数据,有效提高了在低深度数据样品中拼接的准确度;Trinity采用了基于海马和Oysterbay算法的启发式拼接策略,保留长序列的不同部分,成功解决了过于简单直接的新老拼接方法所面临的问题,制定了更加严密实用的拼接规则。 结论 总之,从头拼接算法在RNA-Seq测序技术中发挥着重要作用。然而,其准确性和适应性存在一些问题。随着新的算法的不断涌现和更新,我们相信这些问题将会得到解决。在未来的研究中,需要进一步研究和完善算法,以得到高质量的转录组表达数据,为基因组和表观基因组研究提供更为准确有效的数据支持。