预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115698330A(43)申请公布日2023.02.03(21)申请号202180038644.8(74)专利代理机构中国专利代理(香港)有限公(22)申请日2021.05.26司72001专利代理师权陆军初明明(30)优先权数据63/0309312020.05.28US(51)Int.Cl.C12Q1/6869(2006.01)(85)PCT国际申请进入国家阶段日2022.11.28(86)PCT国际申请的申请数据PCT/EP2021/0640942021.05.26(87)PCT国际申请的公布数据WO2021/239834EN2021.12.02(71)申请人豪夫迈·罗氏有限公司地址瑞士巴塞尔(72)发明人M·库克里卡B·刘权利要求书2页说明书8页附图4页(54)发明名称识别高错误单分子读段中的短基序的序列比对系统和方法(57)摘要本文描述了一种新颖的比对方法,所述比对方法利用多阶段二级分析,每个阶段逐渐减少下一个或多个阶段要分析的数据量,但增加对从前一个或多个阶段接收到的其余数据的搜索的详尽性。这样,可在一个或多个早期阶段从最初的大型数据池中快速地识别噪声较小的比对,而在一个或多个后期计算阶段可从更小的数据池中同等快速地识别噪声非常大的比对,从而保持靶灵敏度,同时减少总体计算时间。CN115698330ACN115698330A权利要求书1/2页1.一种用于将序列读段与参考序列进行比对的方法,所述方法包括:使用第一种子长度利用Burrows‑Wheeler变换将来自序列读段整个群的序列读段第一集合与参考序列进行比对,其中基于所述序列读段的错误率选择所述第一种子长度;掩蔽所述序列读段第一集合,使得所述序列读段整个群包括经掩蔽的序列读段和非掩蔽的序列读段的子集;使用第二种子长度利用所述Burrow‑Wheeler变换将来自所述非掩蔽的序列读段的序列读段第二集合与所述参考序列进行比对,其中所述第二种子长度小于所述第一种子长度;以及基于所述序列读段第一集合和所述序列读段第二集合确定所述序列读段与所述参考序列的比对。2.根据权利要求1所述的方法,其进一步包括迭代地掩蔽和比对序列读段的另外集合与具有更小种子长度的读段的每个后续集合,以及确定所述序列读段与所述序列读段的另外集合的比对。3.根据权利要求1所述的方法,其中所述第一种子长度小于10个碱基。4.根据权利要求1所述的方法,其中所述第一种子长度小于5个碱基。5.根据权利要求1所述的方法,其中所述第一种子长度为4个碱基。6.根据权利要求1所述的方法,其中所述序列读段的错误率为至少5%。7.根据权利要求1所述的方法,其中所述序列读段的错误率为至少10%。8.根据权利要求1所述的方法,其中所述序列读段的错误率为至少15%。9.根据权利要求1所述的方法,其中所述序列读段从多个多联体测序,其中每个多联体由已经连接在一起的寡核苷酸序列形成,其中所述寡核苷酸序列对应于来自染色体集的多个基因座。10.根据权利要求9所述的方法,其中所述染色体集合包括第13号、18号、22号、X和Y染色体。11.根据权利要求9所述的方法,其中所述染色体集合选自由第13号、18号、22号、X和Y染色体组成的组。12.根据权利要求9所述的方法,其进一步包括计算在所述序列读段中发现每个基因座的频率。13.一种用于将序列读段与参考序列进行比对的方法,所述方法包括:使用灵敏度参数第一集合利用Burrows‑Wheeler变换将来自序列读段整个群的序列读段第一集合与参考序列进行比对,其中基于所述序列读段的错误率选择所述灵敏度参数第一集合;掩蔽所述序列读段第一集合,使得所述序列读段整个群包括经掩蔽的序列读段和非掩蔽的序列读段的子集;使用灵敏度参数第二集合利用所述Burrow‑Wheeler变换将来自所述非掩蔽的序列读段的序列读段第二集合与所述参考序列进行比对,其中相比于所述灵敏度参数第一集合,所述灵敏度参数第二集合引起更高灵敏度;以及基于所述序列读段第一集合和所述序列读段第二集合确定所述序列读段与所述参考序列的比对。2CN115698330A权利要求书2/2页14.根据权利要求13所述的方法,其进一步包括迭代地掩蔽和比对序列读段的另外集合与具有引起更高灵敏度的灵敏度参数集合的读段的每个后续集合,以及确定所述序列读段与所述序列读段的另外集合的比对。15.根据权利要求13所述的方法,其中所述灵敏度参数选自由种子生成、串链和过滤以及阈值化组成的组。16.一种计算机产品,其包括存储多个指令的计算机可读介质,所述多个指令用于控制计算机系统以执行以上方法中的任一者的操作。17.一种系统,其包括:根据权利要求16所述的计算机产品;和一个或多个处理器,其用于执行存储在所述计算机可