预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107766696A(43)申请公布日2018.03.06(21)申请号201610707885.8(22)申请日2016.08.23(71)申请人武汉生命之美科技有限公司地址430075湖北省武汉市东湖新技术开发区高新二路388号武汉光谷国际生物医药企业加速器1.1期9楼4号(72)发明人张翼程超(74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙)42222代理人张火春(51)Int.Cl.G06F19/20(2011.01)G06F19/28(2011.01)权利要求书2页说明书9页附图5页(54)发明名称基于RNA-seq数据的真核生物可变剪接分析方法和系统(57)摘要本发明提供一种基于RNA-seq数据的真核生物可变剪接分析方法和系统。包括通过illumina二代测序平台获取某一具有参考基因组和注释的真核生物的一个或多个样品的转录组原始测序数据;将质量不合格的数据过滤掉,留下的数据作为待分析的数据;接着进行基础分析:将各个转录组样本待分析数据分别比对到所述物种的参考基因组,筛选出唯一比对的结果;计算各样本基因的表达量;筛选出显著差异表达的基因;对差异基因进行功能注释和分析;然后进行可变剪接分析:已知可变剪接事件的鉴定;新的可变剪接事件的鉴定;样品(组)间可变剪接事件差异分析;可变剪接与基因表达关联分析;可变剪接分析结果统计和报表生成;可变剪接可视化图生成。CN107766696ACN107766696A权利要求书1/2页1.一种基于RNA-seq数据的可变剪接分析方法,其特征在于,包括:1)通过illumina二代测序平台获取某一具有参考基因组和注释的真核生物的一个或多个样品的转录组原始测序数据;2)对上述各组原始测序数据进行过滤,将质量不合格的数据过滤掉,留下的数据作为待分析的数据,过滤的条件是:截掉adapter接头及之后的序列;截掉序列末尾质量低于20的碱基;丢掉序列长度小于16的序列;去掉50%碱基质量低于20的序列;3)对各个转录组的待分析数据进行基础分析和可变剪接分析,其中,所述的基础分析包括:(1)将所述各个转录组样本待分析数据分别比对到所述物种的参考基因组,获取发生剪接的比对结果,并筛选出唯一比对的结果;(2)计算各样本基因的表达量:基于RPKM标准化方法使用python编写程序,计算基因表达量信息;(3)将各样品按照样品间或样品组间进行差异分析,筛选出显著差异表达的基因:样本(组)间差异分析使用R软件包edgeR进行,显著差异基因的筛选标准为:pvalue小于等于0.01,foldchange大于等于2;(4)对差异基因进行功能注释和分析:包括样品间相关性分析,差异基因聚类分析,差异基因GO富集分析,差异基因KEGGPathway分析;所述的可变剪接分析包括:(1)参考基因组注释文件中已知可变剪接事件的鉴定;(2)新的可变剪接事件的鉴定;(3)样品(组)间可变剪接事件差异分析;(4)可变剪接与基因表达关联分析;(5)可变剪接分析结果统计和报表生成;(6)可变剪接可视化图生成:使用perl编写程序,绘制可变剪接事件的可视化图。2.根据权利要求1所述的方法,其特征在于,所述的基础分析的比对使用tophat2软件进行,软件的参数具体设置如下:设置比对reads的错配数为4;设置Bowtie2片段比对最大错配数为1;设置reads最大的多位置比对结果输出个数为2;设置线程数为16;其他均使用软件默认设置。3.根据权利要求1所述的方法,其特征在于,各个转录组样本待分析数据分别比对到所述物种的参考基因组得到结果后,筛选出唯一比对结果的方法如下:检查bam文件中每条比对结果TAG的NH,如果匹配“NH:i:1”,则表示该reads是唯一比对的结果,保留下来,否则就丢掉;最后筛选留下的结果使用samtools工具转换为bam文件,并建立index;该bam用于后续分析;Tophat2可以提取出发生剪接的reads比对结果,并生成bed文件:junctions.bed,该文件是后序可变剪接分析的输入文件。4.根据权利要求1所述的方法,其特征在于,可变剪接分析中研究的可变剪接事件包括的类别如下:外显子跳跃事件(ES/cassetteExon),互斥外显子事件,可变3’剪接事件,可变5’剪接事件,可变的第一个外显子事件,可变的最后一个外显子事件,同时外显子跳跃和可变3’剪接的事件,同时外显子跳跃和可变5’剪接的事件,内含子保留事件。2CN107766696A权利要求书2/2页5.根据权利要求1所述的方法,其特征在于,参考基因组注释文件中已知可变剪接事件的鉴定步骤为:首先为每个基因定义一个基因模型,也就是genemodel,默认选择注释文