预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于改进邻域的局部保持投影方法 本篇论文将基于改进邻域的局部保持投影方法进行介绍与探讨。局部保持投影是一种流行的非线性降维方法,在众多的数据分析与机器学习任务中受到了广泛关注。在此方法的基础上,近年来出现了多种改进方案,其中一种重要的改进方案是基于邻域的局部保持投影方法。在本文中,我们将通过以下几个方面对该方法进行详细阐述:一、局部保持投影的基本原理;二、邻域保持投影的发展历程;三、基于改进邻域的局部保持投影方法的步骤与计算方式;四、实验结果与分析;五、结论与展望。 一、局部保持投影的基本原理 局部保持投影(LocallyPreservingProjection,LPP)是一种基于信息保持的非线性降维方法。其主要思路是通过保持样本在原高维空间中的局部几何关系,来实现样本降维后的局部几何关系的尽可能保持。LPP通过最小化重构误差的方式,来找到最佳的低维投影方向,使得样本在低维空间中的局部几何关系与在高维空间中的局部几何关系尽可能相似。具体而言,LPP用矩阵W来表示低维投影空间中各维度的权重。同时,LPP定义了一个目标函数,即对于一组样本xi和xj,通过统计它们在高维空间中的相似度,然后通过对它们在低维空间中的相似度进行加权,得到最终的目标函数,即最小化方程: ω(W)=Σi,j|xi-Wxj|2wij 其中wij为xi与xj之间的距离,是高维空间中的距离,wij是二者在低维空间中距离的加权。为了避免过拟合和矩阵奇异性等问题,LPP在目标函数上添加了正则化项和约束条件,具体表述为: L(W)=|X-XW|2+λ|W|2,∑w=1 其中,X是输入的$n*d$维数据矩阵(n表示样本数,d表示变量数),W是低维投影矩阵,λ控制正则化项的权重,∑w=1表示权重矩阵W的归一化条件。 二、邻域保持投影的发展历程 基于logistics回归的方法和LPP相似,Bengio推出了局部线性嵌入(LocallyLinearEmbedding,LLE)算法。但与LPP不同的是,LLE通过构建每个样本的最近邻来保持局部几何关系。之后,Xie、Xu等首先提出了修改LLE的欧几里得距离为其他距离,在输入数据的空间或者降维数据的空间里构建邻域图的改进LLE算法。之后的研究者们闭注于如何构建邻域图和在保持函数中加入邻域信息,比如LEP算法和LPPalgorithm。 LEP算法将最小化LLE方法中的重构误差加一个约束条件,使得输入数据集中每个样本的领域的半径相等,从而使得邻域的大小保持一致。而LPPalgorithm则引入了权重矩阵,对邻域的权重进行了考虑,比LLE的近邻算法在减小误差方面更加有效。 但LPP算法也存在着一定的不足,比如邻域的大小并没有考虑到邻域内点之间的相似度差异,与此同时,窗口大小的选择也具有不确定性,其针对空间中局部特征缺失和样本分布不均的问题尤为明显。基于这些原因,Xia等学者提出了改进型的局部保持投影方法,即基于改进邻域的局部保持投影算法。 三、基于改进邻域的局部保持投影方法的步骤与计算方式 改进的局部保持投影算法是基于邻域信息保持的目标函数改进而来的。其中,算法的具体流程如下: 1、首先,从$n*d$的原始高维数据中,选取$k$个邻域内最近的点组成一个图(G(x)),即G(x)为邻域图,$k$为邻域大小。 2、然后,计算得到低维空间中的权重矩阵$W$。 3、接下来,根据得到的权重矩阵$W$进行降维过程。具体而言,对于一个$d$维的输入数据矩阵$X$,通过权重矩阵$W$,得到$n*L$的低维矩阵$Y$,其中$L<d$,这里通过对目标函数进行优化来得到权重矩阵$W$,即$W=(X*X~T)~{-1}X*Y~T(Y*Y~T)~{-1}$,同样的,对于$Y$的矩阵,也要进行归一化条件$∑w=1$的控制。 4、最后计算降维后的数据$Y$,即得到了最终的低维投影矩阵。 基于改进的局部保持投影方法,邻域大小与距离是可以分别进行控制的。一方面,使用距离$d$来定义邻域范围时,我们可以对$d$进行控制,即通过选择不同的$d$值来控制邻域的大小。当$d$值较小时,邻域范围相对较小,此时的相似性度量更集中在邻域内,增加了点对之间的相关性。另一方面,当使用点数$k$来定义邻域时,我们可以选择一个不同的$k$值来控制邻域的大小,仅考虑了点的数量,从而保证了邻域的大小是相对恒定的。 四、实验结果与分析 我们基于UCI上的四个数据集(Iris,Wine,Banknote,LetterRecognition)进行了实验,采用了改进的局部保持投影方法进行降维并进行了相应的数据可视化。我们将实验结果与其他四个算法进行了比较,包括PCA、LLE、LPP和改进的LPP算法,同时我们还对邻域尺度、相似度度量函数和邻居数等不同参数对下降维后的分类任务的性能进行分析。 实验结果表