预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。知识扩展DNA序列分类DNA(Deoxyribonucleicacid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。欧氏距离(Euclideandistance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d=sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt(∑(xi1-xi2)^)这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。欧氏距离看作信号的相似程度。距离越近1.问题的提出2000年6月,人类基因组计划中DNA全序列草图完成,预计2001以完精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗的全部信息的“天书”,这本大自然写成的“天书”,是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是21实际最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。2.问题的分析这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个问题。在这里问题的关键就是要从已知的20个字母序列中提取用于分类的特征。知道了这些特征,我们就可以比较容易的,对那些未标明类型的序列进行分类,下面我们将首先对用于分类的标准问题进行必要的讨论。3.分类的方法为了在众多可能的分类中寻求合理的分类结果,为此,就要确定合理的聚类准则。定义目标函数为202mJ(U,V)(u)(d)2ikikk1i1显然,J(U,V)表示了各类中样本到聚类中心的加权距离平方和,权重是样本XK对第i类隶度的m次方,聚类准则取为求J(U,V)的极小值(min){J(U,V)}。其中,U=[u]为模糊分类矩阵,i=1,2;k=1,2,···,20;且满足0≤iku≤1和ik若u=max{u}>0.5,则xk∈第j类。ikik在MATLAB中,我们只要直接调用如下程序即可:[Center,U,obj_fcm]=fcm(data,cluster_n)data:要聚类的数据函数,每一行为一个样本cluster_n:聚类数(大于1)Center:最终的聚类中心矩阵,其每一行为聚类中心的坐标值U:最终的模糊分区矩阵obj_fcm:在迭代过程中的目标函数值4.对DNA序列组合分类的分析(1)提取DNA序列特征建立两类序列的特征向量(2)确定两类序列的中心(3)分类方法(4)回代误判率(5)未知的20个序列判别结果5.提取DNA序列特征建立两类序列的特征向量为了对DNA序列进行分类,我们首先对已知的两类DNA序列进行研究,从中找到两类序列的特征。由于在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是我们利用MATLAB软件,通过编程计算出A,B两类序列中4中碱基对含量的百分比,对每个序列构造四维向量x=(x,x,x,x)(k=1,2···,20)kk1k2k3k4其中,x,x,x,x分别表示第k个序列所含有的碱基对A,T,C,G含量的百k1k