预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于多序列比对的NGS基因纠错——云计算平台下的设计实现的任务书 任务书 任务名称:基于多序列比对的NGS基因纠错——云计算平台下的设计实现 任务目的: 1.学习多序列比对的原理和方法,掌握NGS基因纠错的基本技术; 2.熟悉云计算平台的使用,掌握在云端进行科学计算的方法和技巧; 3.能够独立设计和实现基于多序列比对的NGS基因纠错算法。 任务描述: 随着基因组学技术的快速发展,NGS技术已成为常规的基因组测序方法,但NGS在测序过程中存在一定的误差率,特别是在长读长时,误差率更高。NGS基因纠错是指对序列数据进行处理,纠正和减少测序误差以提高测序精度。本任务主要是基于多序列比对的NGS基因纠错,通过比对多个样品的数据,找出同源序列,从而实现测序数据的纠错。 任务实现: 本任务主要分为两个部分,第一部分是云计算平台的学习和使用,第二部分是基于多序列比对的NGS基因纠错的设计实现。具体实现过程如下: 1.学习云计算平台的使用 选定一个云计算平台(如AWS、GCP、Azure等),学习该平台的基本使用方法和技巧。掌握平台上的云计算资源和工具,如虚拟机、存储、容器、数据库、计算机视觉、深度学习框架等。 2.数据预处理 选定一些有关联的NGS序列数据,对数据进行预处理,包括序列拼接、去除冗余序列、序列质量控制等。 3.多样本序列比对 使用多序列比对算法,比对预处理后的多个样本的数据,找出同源序列,得到比对结果。常用的多序列比对算法包括MAFFT、MUSCLE等。 4.序列纠错 根据比对结果,进行序列纠错,去除测序误差,保留真实核苷酸序列。根据纠错结果,重新拼接序列,得到纠正后的NGS序列。 5.结果分析与展示 对纠正后的NGS序列进行结果分析和展示,包括序列质量评估、SNP检测、基因组注释等。 任务要求: 1.精通多序列比对的原理和方法,掌握NGS基因纠错的基本技术; 2.熟悉云计算平台的使用,掌握在云端进行科学计算的方法和技巧; 3.能够独立设计和实现基于多序列比对的NGS基因纠错算法; 4.提交任务报告,详细说明任务设计实现过程和结果分析,代码实现,任务小结和心得体会。 参考文献: 1.Algburi,A.,Zourob,M.,etal.(2018).MachinelearningapproachanditsintegrationwithbatcheffectremovalincorrectingGeneExpressiondata.BMCBioinformatics,19(1),257. 2.Anwar,F.,Johansen,I.,etal.(2018).LongreadsmakethedifferenceingeneexpressionprofilingofPinuscontorta.FrontiersinPlantScience,9,1748. 3.Peeters,J.G.C.,Nederlof,I.,etal.(2019).Sequence-basedidentificationofbiologicalcontaminantsinbiopharmaceuticals.npjVaccines,4(1),10.