预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基因组测序数据分析该如何开始 作为生命科学领域的“圈内人”,如果你还不知晓近期基因组测序的飞速发展,那你就实在太out了……这项技术在短短5年时间里,从一种令人仰望的高端技术变成了实验室里的常规操作,仅仅就去年一年时间,这项技术就应用到了千人基因组计划、人类微生物计划这两项重要的研究项目中,识别了大量孟德尔遗传疾病相关的基因,比如朱伯特综合症(JoubertSyndrome),米勒费雪综合症(MillerSyndrome),还破解了苹果,虱子,以及前段时间侵袭海地的霍乱弧菌的基因组,实力确实不可小窥。 然而由于这一领域的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题-从那儿开始?以下的这些测序专家会从这一最常见的新手问题开始,-帮助我们解答疑惑。 需要什么IT基础设备? 简而言之:视情况而定。测序数据集信息量都很大,但不是所有的数据集都一样,比如说,全人类基因组测序项目包括原始测序数据,比对数据,变异检出数据等,每个样品都能达到上百GB,而像ChIP-Seq数据集(例如染色体免疫共沉淀实验数据)就小得多了,才几个GB而已。 因此要回答需要多少空间来存储所有数据这个问题,也是视情况而定。弗吉尼亚州立联邦大学生物标记研究及个性化医疗中心有一台2010年早期购买的ABISOLiD4测序仪,目前这个中心有大约35TB(即35000GB)的磁盘空间来存储数据,其中一些保存在实验室内,但是大部分实际上都外包了,比如1575个个体甲基化测序数据。中心主任EdwinvandenOord说,“仅仅是实验室里产生的数据不需要这么大的空间”,但即使是35TB的空间还是不够的,“我们需要购买更多的磁盘才能分析这些数据”。来自杜克大学的KevinShianna实验室完成了200个全人类基因组测序,以及另外100个基因组外显子(即蛋白编码区域)测序,目前他们有300TB磁盘空间,而且其中大部分都是满的! 除了磁盘空间外,另外一个关键的元素就是电脑的运作能力,数据文件如此之大,往往不能通过台式机来准确分析,因此需要计算机PC集群(cluster)一种特别的ad-hoc超级电脑(ad-hoc:电脑到电脑网络),电脑之间通过网络链接,由许多小电脑并联组成。举例而言,杜克大学所用的一种软件工具:SequenceVariantAnalyzer(能注释基因变异,以及这些变异在基因组中位置)就是“一个内存怪兽”,Shianna说,“它至少需要24-32GB的内存空间。” 如果没有这些设备该怎么办? 许多高校都提供集群资源服务,但也不是每个都有,对于没有集群设施的研究人员来说,可以寻找一些Web,云模式(cloud-based)为基础的来替代,比如AmazonWebServices,这是一种可以提供基础设施的计算平台服务,包括云计算平台EC2(ElasticComputeCloud)-拥有几乎无限的计算设施,和云储存服务S3(simplestorageservice)-提供在线存储服务。每个人都可以在AWS上建立自己的户头,这要求有一台实体的机器,一个计算机界面来连接网络,然后通过Amazon的云服务进行数据分析。 这种付费系统灵活性很大,通过Amazon(或其它的云服务平台,比如Google和Microsoft)完成繁重的高计算量任务,研究人员就能从购买,维修和升级IT设备这些繁杂的事情中脱身,DNAnexus公司总裁AndreasSundquist说,“我看到Amazon最新预算好像订了十万个CPU,还有上百个PB(1PB=1000TB)磁盘”,“世界上能接触到这么多计算机和磁盘的地方非常少”,一些无私的研究人员还研发了一种预先组态(preconfigured)生物信息学为基础的虚拟Linux机器,作为一个Amazon镜像系统(AmazonMachineImage),这种打包的服务器环境能运行需要的软件和应用程序。 除此之外,还可以试试宾州的Galaxy(galaxy.psu.edu/),其网页介绍道,“Galaxy能帮助你完成其它任何地方都无法完成的分析,而且无需安装或者下载任何东西,你可以分析多重比对,比较基因组注释,解析宏基因组样品等更多得多的应用”,这一系统包含有大量的文档资料和教程视频,来自凯撒西储大学的MarkAdams将Galaxy称为“一个能整合不同类别数据,查询数据,协调性尤其好的优秀系统”。 对于云计算有更高要求的研究人员就可以尝试下一些商业公司,比如DNAnexus(dnanexus.com)和Genom