预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共75页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

2024/11/4序列数据的保存格式与相关数据库资源 在数据库中进行序列相似性搜索 多序列比对 进化树构建与分子进化分析 Motif的寻找与序列的模式识别 RNA二级结构,蛋白质二、三级结构的预测 基因芯片的数据分析内容提要生物序列的相似性同源性(homology): 指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。相似性和同源性关系序列相似性比较和序列同源性分析Blast简介(一)Blast是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。 下表列出了主要的blast程序。主要的blast程序Blast相关的问题Blast资源Blast结果给出的信息两种版本的Blast比较(一)单机版 单机版的blast可以通过NCBI的ftp站点获得,有适合不同平台的版本(包括linux,dos等)。获得程序的同时必须获取相应的数据库才能在本地进行blast分析。单机版的优点是可以处理大批的数据,可以自己定义数据库,但是需要耗费本地机的大量资源,此外操作也没有网络版直观、方便,需要一定的计算机操作水平。本地WEB版的BlastBlast程序评价序列相似性的两个数据NCBI提供的Blast服务Blast任务提交表单(一)Blast任务提交表单(二)Blast任务提交表单(三)提交任务结果页面(一)结果页面(二)结果页面(三)一个具体的例子(blastp)具体步骤分析过程(一)分析过程(二)分析过程(三)分析过程(四)分析过程(五)分析过程(六)分析过程(七)分析过程(八)为什么使用单机版的Blast? 1.特殊的数据库要求。 2.涉及序列的隐私与价值。 3.批量处理 4.其他原因??单机版Blast的基本操作过程 1.下载单机版的Blast程序 ftp://ftp.ncbi.nlm.nih.gov/blast/executables/ 目录下,下载对应的操作系统版本。 2.解压程序包(blast-2.28-ia32-linux.tar.gz) 命令是: $tarzxvfblast-2.28-ia32-linux.tar.gz 3.获取Blast数据库 a.直接从ncbi下载 ftp://ftp.ncbi.nlm.nih.gov/blast/db/ b.用Blast程序包提供的formatdb工具自己格 式化序列数据成数据库。 假设有一序列数据(sequence.fa,多序列,fasta格式),欲自己做成Blast数据库,典型的命令如下:核酸序列: $./formatdb–isequence.fa–pF–oT/F–ndb_name 蛋白序列: $./formatdb–isequence.fa–pT–oT/F–ndb_name 4.执行Blast比对 获得了单机版的Blast程序,解压开以后,如果有了相应的数据库(db),那么就可以开始执行Blast分析了。 单机版的Blast程序包,把基本的blast分析,包括blastn,blastp,blastx等都整合到了blastall一个程序里面。以下是一个典型的blastn分析命令: (待分析序列seq.fa,数据库nt_db) $./blastall–pblastn–iseq.fa-dnt_db–w7–e10–o 程序名 输入数据库窗口e值输出 seq.blastn.out 该命令的意思是,对seq.fa文件中的核酸序列对nt_db数据库执行blastn搜索,窗口大小是7,e值限制是10,输出的结果保存到文件seq.blastn.out中。5.Blastall的常用参数 -p程序名应该是blastn,blastp,blastx,tblastn,tblastx中的一个 -d数据库名称,默认nr -i查询序列文件,默认stdin -eE值限制,默认10 -o结果输出文件,默认stdout -F过滤选项,默认T -a选择进行运算的CPU个数进一步深入BlastBlast2MegablastPSI-blastBlast的算法基础Blast的算法流程首先确定一个终止值S、步长参数w和一个阈值T。然后软件会在考虑搜索背景性质的基础上计算出合适的S值。使要比对的序列中包含一个分值不小于S的HSP。Blast的算法(二)Blast的算法(三)在1997年提出了对BLAST程序的改进算法,提高了搜索速度、敏感度和实用性。 可处理间隔(gap)的gappedBLAST算法 PSI-BLAST算法 对一个选中字串长度