预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114186599A(43)申请公布日2022.03.15(21)申请号202110857661.6(22)申请日2021.07.28(71)申请人华东理工大学地址200237上海市徐汇区梅陇路130号(72)发明人袁玉波宋湘(51)Int.Cl.G06K9/62(2022.01)权利要求书2页说明书4页附图3页(54)发明名称一种基于噪声数据的正则化局部切空间对齐算法(57)摘要本文提出了一种基于噪声数据集改进的局部切空间对齐算法。对于噪声样本集,首先确定每个样本的邻域空间,基于欧式距离确定样本最近的几个样本。然后基于已知的样本邻域优化添加截断核范数后的目标式,得到近似低秩矩阵,分解近似低秩矩阵得到邻域样本的切空间坐标表示。最后对齐邻域样本切空间坐标,构造ψ矩阵,并对ψ进行特征值分解,全局低维坐标表示即为前d个最小的非0特征值对应的特征向量。实验证明,改进的局部切空间对齐算法相比较于局部切空间对齐算法在噪声的干扰下,有更有效的流形结构学习能力。在人造数据集上表现出良好的可视化效果,在真实图像数据集上分类准确性提升50%。CN114186599ACN114186599A权利要求书1/2页1.一种基于噪声数据的正则化局部切空间对齐算法,其特征在于:对高维数据进行流形学习降维时,进行以下步骤:步骤1,数据集预处理。对数据进行最大最小归一化操作,加快梯度下降的求解速度,即提升模型的收敛速度。步骤2,对于目标数据集中的每个样本xi,分别使用近邻查找算法确定样本k个近邻,组成样本近邻矩阵Xi。步骤3,针对每个样本xi,提取其样本邻域切空间坐标矩阵Θi。优化切空间坐标提取目标式,采用EM‑算法迭代求解,固定一部分变量值,更新一个变量值,直至目标函数式收敛,即求得近似最佳Θi。步骤4,基于全部样本的邻域切空间坐标Θi,以最小平凡误差为损失函数对齐不同样本领域中共有样本的切空间坐标,优化损失函数,从而求得最优的低维全局嵌入坐标T。2.根据权利要求1所述的基于噪声数据的正则化局部切空间对齐算法,其特征在于:在切空间坐标提取阶段,利用核范数易于计算和实现对矩阵的低秩性约束实现局部切空间对齐算法对噪声数据的干扰的鲁棒性作用,并在核范数的基础上应用截断概念,基于每个噪声样本的邻域矩阵Xi,求得噪声样本邻域矩阵的近似低秩表达Zi。其中m为原数据集维数,k为近邻数,为邻域矩阵Xi的均值,A)和B)为Li截断后的左右奇异值向量,截断参数r为超参数,小于k。TLi=U∑V(1)n×nn×mm×mU=(u1,...,un)∈R,∑∈R,V=(v1,...,vm)∈R(2)Tr×nA=(u1,...,ur)∈R(3)Tr×0B=(v1,...,vr)∈R(4)。3.根据权利要求1所述的基于噪声数据的正则化局部切空间对齐算法,其特征在于:对于切空间坐标提取阶段的目标式优化方面,受截断核矩阵补全算法的APGL优化方法启发,采用EM算法对目标式进行迭代求解,循环更新中间变量和目标变量,直到目标损失函数收敛,从而求得噪声样本邻域矩阵的近似低秩表达Zi,以及样本i的邻域矩阵的切空间坐标Θi。(si‑λtl)+=max(si‑λtl,0)(8)其中变量值初始化为l=1,Z0=Li,Y0=Li,t0=1。循环迭代直到前后两轮的目标损失值2CN114186599A权利要求书2/2页小于收敛域值,即|objk+1‑objk‑1|≤ε。3CN114186599A说明书1/4页一种基于噪声数据的正则化局部切空间对齐算法技术领域[0001]本发明主要涉及数据降维处理技术,具体涉及一种基于流形学习的局部切空间对齐算法。背景技术[0002]在传统的模式识别过程中,高维度数据通常伴随着样本矩阵高稀疏以及距离计算困难的缺点,导致模式识别过程无法收敛以及识别率低。降维是高维数据在数据预处理阶段的一个关键步骤。众多的特征降维方法主要分为线性和非线性降维方法,它们共同的目的都是为了压缩数据集大小以加快模型学习速度,以及提炼或生成出数据模式中有用的变量维度。[0003]PCA是机器学习中一种使用范围较广的基于特征向量的无监督线性降维方法。它通过计算由数据样本构成的协方差矩阵中的最大特征值对应的特征向量,来构成降维后的样本空间。其目的是为了找到原样本集在低维空间中线性投影方差最大的方向,在降维的过程中最大化的保留样本集信息。[0004]流形学习是非线性降维领域的重要部分。流形学习方法可分为两种方式,基于局部特征保留思想和基于全局特征保留的思想。两种方式的目的都是为了将流形结构在高维空间中的特征以尽可能小的误差嵌入到低维空间中,从而实现特征空间降维的效果。局部切空间对齐算法是基于局部特征保留思想的典型算法之一。该算法将高维邻域的