预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于RNA测序技术的转录组从头拼接算法研究的中期报告 一、研究背景与目的 随着RNA测序技术的发展,越来越多的基因表达数据得以获取。但是如何从基因表达谱数据中获取全面的转录本信息仍是一个难题。由于具有多剪切变异和基因重叠现象,转录本的组装常常会出现错误或遗漏,因此需要开发高效且准确的转录本组装算法。本研究的目的便是探究一种基于RNA测序技术的转录组从头拼接算法,以提高转录本拼接的准确性和可靠性。 二、研究进展 1.数据预处理 本研究选择了IlluminaHiSeq平台测序的人类胃癌和正常胃组织样本,进行了质控和去除低质量序列。经过预处理得到112,818,989条清洗后的reads,总计34.4Gb。 2.拼接流程 本研究采用了Trinity软件进行转录本组装。该软件结合了多个拼接工具和三联组拼接策略,能够较好地解决多异构体拼接问题。具体流程如下: (1)拼接估计 Trinity软件首先使用Inchworm工具对长reads进行单个DeBruijn图拼接,得到大量的Contigs。然后使用Chrysalis进行相似性聚类,将相似Contigs聚成一组,得到许多的Unigenes。最后使用Butterfly进行三联组拼接,得到最终的转录本。 (2)拼接评估 本研究为了判断算法的准确性和可靠性,采用了以下三种策略进行拼接评估: ①丰富性评估:利用BLAST工具将拼接得到的完整转录本序列与NCBINR数据库进行比对,以此评估拼接组装结果中包含的新基因本身优良程度,结果显示在21,518个转录本中,有11,817个转录本能够得到匹配序列,覆盖了55%的转录本序列。 ②完整性评估:利用BUSCO软件评估拼接得到的转录组中基因的完整性,结果显示77.18%的基因序列得到比对,其中78.9%比对长度覆盖均为完整的基因序列。 ③一致性评估:通过比较拼接结果与已知基因组进行比较,评估拼接结果与基因组的一致性。结果显示,在比较的895,844个转录本中,有75%与已知基因序列完全一致,15%的转录本有高度相似性,而其余10%则不太一致。 三、结论与展望 本研究基于RNA测序技术开发了一种高效且准确的转录组从头拼接算法。通过对人类胃癌和正常胃组织样本的拼接实验,结果显示该算法能在一定程度上提高转录本拼接的准确性和可靠性。但是由于组装多异构体时可能存在错误或遗漏,因此仍需要进一步完善算法以达到更高的精度和可靠性。