DNA序列分类997-豆柴文库

DNA序列分类997.pdf

2024-03-26

10金币

524KB

12页

金启****富来

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共12页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法，掌握利用FCM命令进行DNA分类的方法，学会做出分类图形直接给出分类结果的MATLAB编程。知识扩展DNA序列分类DNA(Deoxyribonucleicacid)，中文译名为脱氧核苷酸，是染色体的主要化学成分，同时也是基因组成的，有时被称为“遗传微粒”。DNA是一种分子，可组成遗传指令，以引导生物发育与生命机能运作。主要功能是长期性的资讯储存，可比喻为“蓝图”或“食谱”。DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。其中两条DNA链中对应的碱基A-T以双键形式连接，C-G以三键形式连接，糖-磷酸-糖形成的主链在螺旋外侧，配对碱基在螺旋内侧。FCM算法中样本点隶属于某一类的程度是用隶属度来反映的，不同的样本点以不同的隶属度属于每一类；但是算法中的概率约束∑uij=1使得样本的典型性反映不出来，不适用于有噪音，样本分布不均衡，存在两个或者两个以上样本分别距两个类的距离相等的样本等等。欧氏距离（Euclideandistance）也称欧几里得距离，它是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。公式在二维和三维空间中的欧式距离的就是两点之间的距离，二维的公式是d=sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间，欧式距离的公式是d=sqrt(∑(xi1-xi2)^)这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下：若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。欧氏距离看作信号的相似程度。距离越近1.问题的提出2000年6月，人类基因组计划中DNA全序列草图完成，预计2001以完精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗的全部信息的“天书”，这本大自然写成的“天书”，是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号，除了这4种碱基以外，人们对它包含的“内容”知之甚少，难以读懂，破译这部世界上最巨量信息的“天书”是21实际最重要的任务之一。在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学最重要的课题之一。2．问题的分析这是一个比较典型的分类问题，为了表述的严格和方便，我们用数学的方法来重述这个问题。在这里问题的关键就是要从已知的20个字母序列中提取用于分类的特征。知道了这些特征，我们就可以比较容易的，对那些未标明类型的序列进行分类，下面我们将首先对用于分类的标准问题进行必要的讨论。3．分类的方法为了在众多可能的分类中寻求合理的分类结果，为此，就要确定合理的聚类准则。定义目标函数为202mJ(U,V)(u)(d)2ikikk1i1显然，J(U,V)表示了各类中样本到聚类中心的加权距离平方和，权重是样本XK对第i类隶度的m次方，聚类准则取为求J(U,V)的极小值(min){J(U,V)}。其中，U=[u]为模糊分类矩阵，i=1，2；k=1，2，···，20；且满足0≤iku≤1和ik若u=max{u}>0.5，则xk∈第j类。ikik在MATLAB中，我们只要直接调用如下程序即可：[Center,U,obj_fcm]=fcm(data,cluster_n)data:要聚类的数据函数，每一行为一个样本cluster_n:聚类数（大于1）Center:最终的聚类中心矩阵，其每一行为聚类中心的坐标值U:最终的模糊分区矩阵obj_fcm:在迭代过程中的目标函数值4.对DNA序列组合分类的分析（1）提取DNA序列特征建立两类序列的特征向量（2）确定两类序列的中心（3）分类方法（4）回代误判率（5）未知的20个序列判别结果5.提取DNA序列特征建立两类序列的特征向量为了对DNA序列进行分类，我们首先对已知的两类DNA序列进行研究，从中找到两类序列的特征。由于在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是我们利用MATLAB软件，通过编程计算出A，B两类序列中4中碱基对含量的百分比，对每个序列构造四维向量x=(x，x，x，x)(k=1,2···,20)kk1k2k3k4其中，x，x，x，x分别表示第k个序列所含有的碱基对A,T,C,G含量的百k1k

相关资料

DNA序列分类997.pdf

2024-03-26

524KB

DNA序列分类997.doc

DNA序列分类学习利用MATLAB提取DNA序列特征建立向量的方法，掌握利用FCM命令进行DNA分类的方法，学会做出分类图形直接给出分类结果的MATLAB编程。DNA序列分类DNA(Deoxyribonucleicacid)，中文译名为脱氧核苷酸，是染色体的主要化学成分，同时也是基因组成的，有时被称为“遗传微粒”。DNA是一种分子，可组成资讯储存，可以引导生物发育与生命机能运作。主要功能是长期性的比喻为“蓝图”或“食谱”。DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结合物。其中两条DNA链中对应

DNA序列的分类模型.pdf

DNA序列的分类问题.doc

DNA序列的分类问题摘要本文给出了关于对DNA序列集合如何进行分类问题的解决方案。主要使用了Matlab软件对问题进行建模及运算，运用了聚类分析及判别分析的方法对数据进行处理。在对原始数据的处理和转换方面，使用了C#编写了相关代码，程序完成的主要任务是提取A、T、C、G在各个DNA序列集合中分别出现的频率，然后将这四个频率值作为每个DNA序列集合的特征向量，在Matlab中对其进行聚类分析，并利用分类结果，对未分类的DNA序列集合进行分类预测。1．引言随着人类社会信息和知识总量的不断膨胀，如何有效地管理和

2024-08-21

163KB

DNA序列分类模型.doc

DNA序列分类模型重庆市数学建模竞赛一等奖王勇,莫志锋,秦力顼(1999级自动化学院)[摘要]本文根据题中所给两个已知类别的DNA序列进行结构特征分析，从中提取信息和构造分类模型，对未知类别的DNA序列进行分类。我们构造了三个分类模型，它们分别是：特征密码子概率分布判别模型、图论最小支撑树模型和向量空间直观判别模型。后两种分类结果几乎一致，判别率在90%左右，误判率控制在（0.05-0.1）范围。问题一结果为：模型一的结果：A类有7个：22，23，27，29，34，35，37；B类有10个：21，24，2

2024-08-30

297KB