预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共76页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

生物序列的相似性搜索-blast简介及其应用序列数据的保存格式与相关数据库资源在数据库中进行序列相似性搜索多序列比对进化树构建与分子进化分析Motif的寻找与序列的模式识别RNA二级结构蛋白质二、三级结构的预测基因芯片的数据分析内容提要生物序列的相似性同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论属于质的判断。就是说A和B的关系上只有是同源序列或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。相似性和同源性关系序列相似性比较和序列同源性分析Blast简介(一)Blast是一个序列相似性搜索的程序包其中包含了很多个独立的程序这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸查询数据库亦为核酸序列数据库那么就应该选择blastn程序。下表列出了主要的blast程序。主要的blast程序Blast相关的问题Blast资源Blast结果给出的信息两种版本的Blast比较(一)单机版单机版的blast可以通过NCBI的ftp站点获得有适合不同平台的版本(包括linuxdos等)。获得程序的同时必须获取相应的数据库才能在本地进行blast分析。单机版的优点是可以处理大批的数据可以自己定义数据库但是需要耗费本地机的大量资源此外操作也没有网络版直观、方便需要一定的计算机操作水平。本地WEB版的BlastBlast程序评价序列相似性的两个数据NCBI提供的Blast服务Blast任务提交表单(一)Blast任务提交表单(二)Blast任务提交表单(三)提交任务结果页面(一)结果页面(二)结果页面(三)一个具体的例子(blastp)具体步骤分析过程(一)分析过程(二)分析过程(三)分析过程(四)分析过程(五)分析过程(六)分析过程(七)分析过程(八)为什么使用单机版的Blast?1.特殊的数据库要求。2.涉及序列的隐私与价值。3.批量处理4.其他原因??单机版Blast的基本操作过程1.下载单机版的Blast程序ftp://ftp.ncbi.nlm.nih.gov/blast/executables/目录下下载对应的操作系统版本。2.解压程序包(blast-2.28-ia32-linux.tar.gz)命令是:$tarzxvfblast-2.28-ia32-linux.tar.gz3.获取Blast数据库a.直接从ncbi下载ftp://ftp.ncbi.nlm.nih.gov/blast/db/b.用Blast程序包提供的formatdb工具自己格式化序列数据成数据库。假设有一序列数据(sequence.fa多序列fasta格式)欲自己做成Blast数据库典型的命令如下:核酸序列:$./formatdb–isequence.fa–pF–oT/F–ndb_name蛋白序列:$./formatdb–isequence.fa–pT–oT/F–ndb_name4.执行Blast比对获得了单机版的Blast程序解压开以后如果有了相应的数据库(db)那么就可以开始执行Blast分析了。单机版的Blast程序包把基本的blast分析包括blastnblastpblastx等都整合到了blastall一个程序里面。以下是一个典型的blastn分析命令:(待分析序列seq.fa数据库nt_db)$./blastall–pblastn–iseq.fa-dnt_db–w7–e10–o程序名输入数据库窗口e值输出seq.blastn.out该命令的意思是对seq.fa文件中的核酸序列对nt_db数据库执行blastn搜索窗口大小是7e值限制是10输出的结果保存到文件seq.blastn.out中。5.Blastall的常用参数-p程序名应该是blastnblastpblastxtblastntblastx中的一个-d数据库名称默认nr-i查询序列文件默认stdin-eE值限制默认10-o结果输出文件默认stdout-F过滤选项默认T-a选择进行运算的CPU个数进一步深入BlastBlast2MegablastPSI-blastBlast的算法基础Blast的算法流程首先确定一个终止值S、步长参数w和一个阈值T。然后软件会在考虑搜索背景性质的基础上计算出合适的S值。使要比对的序列中包含一个分值不小于S的HSP。Blast的算法(二)Blast的算法(三)在1997年提出了对BLAST程序的改进算法提高了搜索速度、敏感度和实用