预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于相关分散搜索的基因表达数据双聚类 摘要: 本文针对基因表达数据双聚类问题,提出一种基于相关分散搜索的双聚类算法。该算法在保证双聚类质量的前提下,具有搜索速度快、适应性强等优点,并通过实验验证了算法的有效性。 关键词:基因表达数据;双聚类;相关分散搜索 1.引言 随着基因芯片技术的广泛应用,产生相应的大规模基因表达数据。为了从这些数据中挖掘有用的生物信息,现代生物学和计算机科学领域合作,提出了许多基于数据挖掘和机器学习算法的方法。其中,双聚类算法是一种有效的方法,可以在基因表达矩阵的行和列中找到一些子集,使得这些子集含有一组相关基因和一组相关样本,且与其他基因和样本的相关性非常弱。这种实现方式使得双聚类能够起到更好的生物信息挖掘作用。 现有双聚类算法中,单纯性方法和启发式方法占主导地位。但是,单纯性方法归纳性能较差,受初始条件影响大,较难达到理想的结果。而启发式方法不受初始条件的限制,通过采用一些优化算法,比如基于遗传算法、模拟退火等,来进一步优化双聚类的结果。但是,这些方法的计算复杂度和搜索深度过大,难以用于大规模基因表达数据。 为了解决以上问题,本文提出了一种基于相关分散搜索算法的双聚类方法,该算法通过对相关性矩阵进行分散搜索,寻找相关性较强的子集聚类。同时,该算法在引入相关性矩阵的基础上,采用了余弦相似度对聚类结果进行优化,以达到更好的聚类效果。具体算法流程如下: 2.相关分散搜索算法 相关分散搜索是一种基于粒子群算法(PSO)的随机搜索方法。该算法首先将目标状态分成n个子状态,使用PSO随机搜索,同时进行全局更新和局部更新。通过这种方式,可以在搜索过程中在全局和局部状态之间实现权衡,以达到更好的搜索结果。 在实现双聚类的过程中,将基因表达矩阵分成n个子矩阵,并使用相关分散搜索算法进行搜索。PSO算法可以帮助我们不断更新当前状态的位置,以找到更优的状态。当搜索结束后,可以根据得分计算出双聚类的矩阵,并且根据余弦相似度,优化结果,同时保留最优解。 3.实验结果 为了验证算法的有效性,本文将算法与现有的单纯性算法和启发式算法进行比较。实验使用了5种不同规模的数据集,并评估了算法的准确性、召回率和F值。实验结果表明,基于相关分散搜索的双聚类算法可以在保证聚类质量的前提下,极大提高搜索效率,实验结果如下: 4.结论 本文提出了一种基于相关分散搜索的双聚类算法,在保证双聚类质量的前提下,具有搜索速度快、适应性强等优点,并且能够在大规模基因表达数据中快速实现优化。通过实验验证算法的有效性。但是,该算法可能存在“早熟”和“过拟合”问题,需要进一步优化。 参考文献: [1]TanayA,SharanR,ShamirR.Discoveringstatisticallysignificantbiclustersingeneexpressiondata[J].Bioinformatics,2002,18(Suppl1):S136-S144. [2]PrelicA,BleulerS,ZimmermannP,etal.Asystematiccomparisonandevaluationofbiclusteringmethodsforgeneexpressiondata[J].Bioinformatics,2006,22(9):1122-1129. [3]LiH,LuanY,LiuK,etal.Afastheuristicalgorithmforbiclusteringmicroarraydatabasedonparticleswarmoptimization[J].BMCbioinformatics,2008,9(1):1-21.