预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利(10)授权公告号CN108304693B(45)授权公告日2022.02.25(21)申请号201810062150.3CN105543380A,2016.05.04(22)申请日2018.01.23CN106202991A,2016.12.07CN107480472A,2017.12.15(65)同一申请的已公布的文献号陈琦.基于肿瘤RNA_Seq数据识别融合基因申请公布号CN108304693A的方法研究.《中国优秀硕士学位论文全文数据(43)申请公布日2018.07.20库(电子期刊)医药卫生科技辑》.2017,第2017年(73)专利权人元码基因科技(北京)股份有限公卷(第3期),全文.司AlbertoFerrarinietal.Anovel地址100102北京市朝阳区广顺北大街5号frameworkforchimerictranscript融创动力A区4层detectionbasedonaccurategenefusionmodel.《2011IEEEInternationalConference(72)发明人张思文田埂梁羽onBioinformaticsandBiomedicine(74)专利代理机构北京科石知识产权代理有限Workshops(BIBMW)》.2011,公司11595VinayVaradanetal.Identification代理人高元吉andcharacterizationofgenefusionsin(51)Int.Cl.breastcancer-Anon-trivialpursuit.《2013G16B30/10(2019.01)IEEEGlobalConferenceonSignalandG16B20/00(2019.01)InformationProcessing》.2014,(56)对比文件审查员宋海荣CN106650254A,2017.05.10权利要求书1页说明书8页(54)发明名称利用高通量测序数据分析基因融合的方法(57)摘要本发明公开一种利用高通量测序数据分析基因融合的方法。本发明使用pair‑end数据作为输入,对soft‑clip功能不作要求,而且不必需要设置多个复杂参数,根据比对信息和后续过滤条件,检测融合并保留融合的序列和位置,对于单端数据量1G的双端测序数据来说,单对融合基因的分析仅需不到一小时,且每增加一对融合基因的分析,仅需增加5至10分钟。CN108304693BCN108304693B权利要求书1/1页1.一种利用全基因组高通量测序数据分析基因融合的方法,其包括以下步骤:(1)在由多个原始测序序列组成的集合中,针对各原始测序序列从5’端和3’端分别截取掉m个碱基,得到多个待比对序列,其中m为0‑20之间的整数;(2)以包含基因A的序列为第一参考序列,以包含基因B的序列为第二参考序列;(3)将所述多个待比对序列分别与基因组序列进行比对,取出未完全比对的序列标记为R1,并将与其对应的互补序列标记为R2;(4)取序列R1的前端x个碱基长度的序列标记为R1_x,取序列R1的前端y个碱基长度的序列标记为R1_y,并且取序列R2的前端x个碱基长度的序列标记为R2_x,取序列R2的前端y个碱基长度的序列标记为R2_y,其中x和y分别为20‑80之间的整数,如果R1_x与第一参考序列完全匹配,且R2_y与第二参考序列完全匹配,或者R1_y与第二参考序列完全匹配,且R2_x与第一参考序列完全匹配,则将序列R1和序列R2合并得到融合候选序列,其中所述前端是指序列的5’端;(5)将所述融合候选序列比对到基因组,根据基因A和基因B在基因组上的位置过滤比对结果,过滤后剩下的融合候选序列作为融合序列,如果得到的融合序列的数量为1以上,则判定所述基因A和所述基因B发生融合,否则判定所述基因A和所述基因B未发生融合;其中所述高通量测序数据为双端测序数据,且所述高通量测序数据包括第一数据集和第二数据集,R1位于第一数据集,且R2位于第二数据集;或者R1位于第二数据集,且R2位于第一数据集。2.根据权利要求1所述的方法,其中所述各原始测序序列的长度分别为100‑300bp。3.根据权利要求1所述的方法,进一步包括从由多个原始测序序列组成的集合中去除重复的原始测序序列的步骤。4.根据权利要求3所述的方法,其中通过将步骤(1)中得到的待比对序列比对到基因组来去除重复的原始测序序列。5.根据权利要求1所述的方法,其中x与y相等,且分别为所述原始测序序列长度的1/3。6.根据权利要求1所述的方法,其中所述基因A和所述基因B来源于同一物种基因组。7.根据权利要求1所述的方法,其中所述基因A选自ALK、CD74和KIF5B,且所述基因B选自EML4、R