预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106055925A(43)申请公布日2016.10.26(21)申请号201610349039.3(22)申请日2016.05.24(71)申请人中国水产科学研究院地址100141北京市丰台区永定路南青塔村150号(72)发明人李炯棠朱柏翰肖军孙明媛徐桂彩(74)专利代理机构北京市京大律师事务所11321代理人刘向辉王凝(51)Int.Cl.G06F19/20(2011.01)权利要求书3页说明书6页(54)发明名称基于转录组双端测序数据组装基因组序列的方法和装置(57)摘要本发明提供一种基于转录组双端测序数据组装基因组序列的方法,所述方法包括将转录组双端测序序列比对到基因组上,保留双端测序序列分别仅能比对唯一的不同基因组序列以及基于最多转录组双端测序序列连接证据的基因组序列拼接筛选、形成新的基因组序列等步骤。本发明还提供实现上述方法的装置。利用本发明方法,通过将转录组双端测序序列比对到基因组上,获得基于最多双端测序比对结果的连接证据,从而进行基因组序列的拼接组装,以提升基因组的完整性。转录组双端测序数据既可以是公共数据库中该物种的转录组双端测序序列,也可以是实验产生的转录组双端测序数据。CN106055925ACN106055925A权利要求书1/3页1.一种基于转录组双端测序数据组装基因组序列的方法,其特征在于,所述方法包括将转录组双端测序序列比对到基因组上,保留双端测序序列分别仅能比对唯一的不同基因组序列以及基于最多转录组双端测序序列连接证据的基因组序列拼接筛选、形成新的基因组序列的步骤。2.如权利要求1所述的方法,其特征在于,包括如下步骤:(1)转录组双端测序序列的清洗用SolexaQA软件中的dynamictrim和lengthsort模块分别对转录组双端测序结果fastq文件进行清洗,去除低质量序列以及短片段序列;(2)第一轮转录组双端测序序列的比对将转录组双端测序序列与预先拼接的基因组序列contig进行第一轮序列比对,获得双端测序序列在所有可比对上的contig上的位置信息,保留双端测序序列的任一端都比对到唯一且不同的contig上的结果;(3)第二轮转录组双端测序序列的比对将步骤(2)获得的转录组双端测序序列与预先拼接的基因组序列contig进行第二轮序列比对,过滤掉左端序列和右端序列比对到contig上的序列覆盖度至少90%,且双端序列比对到相同contig或者任一端比对到多个contig上的结果;(4)最可靠基因组序列连接的筛选将经过上述两轮比对筛选后,获得的转录组双端测序序列及其比对位置作为contig拼接的连接证据;有后续contig与之连接的序列为起点序列;之前有contig与之连接的序列为终止序列;对于所有作为起点序列的contig,为每个contig选择有最多连接证据的contig,作为终止序列;对于所有作为终止序列的contig,为每个contig选择有最多连接证据的contig,作为起点序列;保留具有最多连接证据的所述起点序列和所述终止序列;将后续连接新contig,而之前没有连接新contig的基因组序列作为起始点,将之前有连接新contig,而后续没有连接新contig的基因组序列作为终结点,将之前既连接新contig,后续又连接新contig的基因组序列作为中间点;(5)新基因组序列的组装根据步骤(4)最终保留的序列,将每个只能作为起始点的基因组片段,分别将其作为起始点,选择后续的中间点,为这个中间点进一步选择新的中间点,直至找到终结点为止,从而形成一条完整的组装通路;根据上述组装通路,将各contig串联组装成更长的基因组序列。3.如权利要求1或2所述的方法,其特征在于,所述转录组双端测序序列来源于该物种已公开的转录组双端测序序列,或通过实验方法获得的该物种转录组双端测序序列;所述转录组双端测序序列为:①基于oligo-dT逆转录获得的RNA-seq双端测序序列,②基于ribo-zero方法构建的RNA-seq双端测序序列。4.如权利要求2或3所述的方法,其特征在于,步骤(1)用SolexaQA软件中的2CN106055925A权利要求书2/3页dynamictrim模块过滤低质量转录组双端测序序列,默认保留测序质量p值<0.05的序列;用SolexaQA软件中的lengthsort模块过滤掉长度小于25个碱基的reads。5.如权利要求2-4任一项所述的方法,其特征在于,步骤(2)进行第一轮序列比对采用的软件为hisat2。6.如权利要求2-5任一项所述的方法,其特征在于,步骤(3)进行第二轮序列比对采用的软件为blat。7.一种基于转录组双端测序数据组装基因组序列的装置,其特征在于,所述装置包括如下单