本发明涉及机器学习与数据挖掘领域,特别是涉及一种基于学习低秩表达的子空间聚类方法。
背景技术:
现有的子空间聚类方法,例如low-rankrepresentation(lrr)和sparsesubspaceclustering(ssc),通过一些必要的特征工程处理,在绝大多数情况下,都可以获得一个不错的聚类效果。
但是由于所采用的拟合函数大多都为frobenius范数,这就使得在做子空间聚类的时候,通常要把二维数据向量化;这样一来反而损失了数据间的结构化信息。
技术实现要素:
本发明的目的在于克服现有技术的不足,提供一种基于学习低秩表达的子空间聚类方法,通过改变核范数将获得矩阵的低秩表达,并结合流形项的加入,获得相应的非线性关系;通过alm优化方法解决了模型优化困难的技术难题。
本发明的目的是通过以下技术方案来实现的:
s1.提出模型;
s101.采用自我表达的方式构建相应的表达字典:
表达字典的具体形式为矩阵z,其中,xi指的是数据集x中的第i个样本;xj指的是数据集x中的第j个样本;zji指的是以xj作为基底来表示样本xi的表达系数;数据集x由待处理的二维图像组成,是数据样本的集合。
s102.对自我表达矩阵和误差拟合项同时使用核范数:
根据s101中矩阵的自我表达形式,确定误差拟合项为
考虑到低秩的z具有清晰的类结构,同时对自我表达矩阵和误差拟合项采用核范数,保证矩阵z的低秩结构,得到:
s103.在提出的最终模型上加入流形项,帮助模型提取数据间的非线性关系:
通过加入流形项tr(zlzt)从数据中学习到的拉普拉斯矩阵,获取数据间的相关性,从而学习到数据间的非线性关系。
根据数据集x完成拉普拉斯矩阵l的构造,对数据集x采用knn算法,默认k=5,来构造邻接矩阵,邻接矩阵的权重我们采用heatkernel的形式,根据度矩阵和邻接矩阵来构造拉普拉斯矩阵;在使用heatkernel的方式求解数据间的权重即数据间的相似性时,实际上已经引入了数据间的非相似性关系,而最小化流形项可以帮助我们保证如果xi和xj在非线性数据空间中的相似性高,那么在新的表达式zi和zj中,即低维的线性的空间中的相似性同样高,数据的相似性在高维的非线性空间中和低维的线性空间中的表达是连续的;即低维的线性空间中的zi和zj相似性可以反映出高维非线性空间中xi和xj的相似性,因此,模型具有非线性关系。
综上所述,我们可以得到我们的最终模型:
模型中的自我表达矩阵z大小为n*n的,n为样本的数量;z的第i列表示以数据集xj,(j=1,...,n)为基底,来表示xi的系数。
s2.模型优化;
在优化方面,我们采用了alm的优化方法,将原问题分解成四个独立的子问题。
为了简化我们的优化,我们引入了辅助变量di,w。
因此我们可以得到如下模型:
写出原模型的拉格朗日展开:
其中,ρ是平衡因子,θi,λ是拉格朗日乘子。
然后我们针对每个变量逐一去求解:
我们采用迭代求解方式,设置k=1,给定最大迭代次数为k(如k=500)。
针对
其中γt(m)定义为对于矩阵m,求解其svd分解后,对奇异值采用的软阈值操作max(σi-t,0)。
同样,针对wk,我们最终得到:
针对zk,我们最终得到:
zk=sylvester(2γk-1lk-1 ρk-1i,ρk-1mk-1,ρk-1mk-1 λk-1)
其中,sylvester()为求解李雅普诺夫方程的标准方法,
针对其他项,我们有:
λk=λk-1 ρk-1(wk-zk)
ρk=ρk-1*kk
其中,kk>1来帮助每次迭代增加ρk的值。
我们加入判定条件:
若满足上述条件则认为模型已经收敛,否则继续迭代,直至达到最大迭代次数。
s3.应用模型,根据实际的数据集获得相应的自我表达矩阵z:
自我表达矩阵z作为谱聚类输入的相似矩阵,通过谱聚类算法得到最终的聚类的簇的划分。
s4.根据自我表达矩阵z去做谱聚类,实现完整的子空间聚类算法。
综上所述,在模型中,我们采用核函数来保证矩阵的低秩性,采用流形来保证数据间的非线性关系。这使得我们的模型具有一定的普适性。
本发明的有益效果是:本发明通过改变核范数将获得矩阵的低秩表达,并结合流形项的加入,获得相应的非线性关系;通过alm优化方法解决了模型优化困难的技术难点,实验结果表明我们提出的算法有效地提高在二维数据集中聚类的纯度和准确率。
附图说明
图1为本发明的方法流程图。
图2是在orl数据集上模型的聚类效果。
图3是在yale数据集上模型的聚类效果。
图4是在jaffe数据集上模型的聚类效。
图5是在alphadigit数据集上模型的聚类效果。
图6是在orl数据集上模型的收敛状态。
图7是在yale数据上模型的收敛状态。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
为了使得近年来非常有效的子空间聚类更加的一般化,针对二维数据类型,我们提出了双重核范数低秩表达,这项技术可以使我们更有效地提取二维数据中的结构化信息,使得在子空间聚类中构造的亲和矩阵能更好的反映出数据间的相似性关系,通过加入低秩约束使表达系数z矩阵的块状结构更加明显,方便我们后续的子空间聚类等应用。
如图1所示,一种基于学习低秩表达的子空间聚类方法,包括以下子步骤:
s1.提出模型,在矩阵自我表达的基础上,我们对误差拟合部分和自我表达矩阵同时使用了核范数,并加入了流形项,帮助模型提取数据间的非线性关系。
s2.模型的优化,我们选择了alm的方式进行优化。
s3.应用模型,根据实际的数据集获得相应的自我表达矩阵z。
s4.根据自我表达矩阵去做谱聚类,实现完整的子空间聚类算法。
本申请基于lrr的基本思想,提出新的模型如下:
在模型中,我们采用核函数来保证矩阵的低秩性,采用流形来保证数据间的非线性关系。
在优化方面,我们采用了alm的优化方法,将原问题分解成四个独立的子问题。
为了简化我们的优化,我们引入了辅助变量di,w。
因此我们可以得到如下模型:
写出原模型的拉格朗日展开:
其中,ρ是平衡因子,θi,λ是拉格朗日乘子。
然后我们针对每个变量逐一去求解:
我们采用迭代求解方式,设置k=1,给定最大迭代次数为k(如k=500)。
针对
其中γt(m)定义为对于矩阵m,求解其svd分解后,对奇异值采用的软阈值操作max(σi-t,0)。
同样,针对wk,我们最终得到:
针对zk,我们最终得到:
zk=sylvester(2γk-1lk-1 ρk-1i,ρk-1mk-1,ρk-1mk-1 λk-1)
其中,
针对其他项,我们有:
λk=λk-1 ρk-1(wk-zk)
ρk=ρk-1*kk
其中,kk>1来帮助每次迭代增加ρk的值。
我们加入判定条件:
若满足上述条件则认为模型已经收敛,否则继续迭代,直至达到最大迭代次数。
下面结合附图和实际数据集使用,对本发明做详细说明:
以yale数据集为例;所采集的图像包含来自15个人的总共165张图像,每个人有11张大小为32×32的灰度图。
将数据集放入我们的模型中:
根据alm的优化方式,求解我们的亲和矩阵z。然后采用谱聚类处理我们的矩阵z,本发明在使用谱聚类算法构建图谱时采用了heatkernel形式处理:
从而获得较好的聚类效果。
在本申请的实施例中,图2是在orl数据集上模型的聚类效果;从图表中可以看出我们的方法,在orl数据集上,无论在准确率还是纯度上都具有可观的聚类效果。
图3是在yale数据集上模型的聚类效果;从图表中可以看出我们的方法,在yale数据集上,在准确率和纯度上聚类效果很可观。
图4是在jaffe数据集上模型的聚类效;从图表中可知,和对比方法进行比较后,我们的模型在jaffe数据集上,无论是聚类的准确率还是纯度都是所有方法中最好的。
图5是在alphadigit数据集上模型的聚类效果;从图表中可以看出我们的方法,在yale数据集上,在准确率和纯度上聚类效果很可观。
图6是在orl数据集上模型的收敛状态;从图中可以看出无论是自我表达矩阵z,还是我们的目标函数都处于收敛状态。
图7是在yale数据上模型的收敛状态;从图中可以看出无论是自我表达矩阵z,还是我们的目标函数在yale也处于收敛状态。
综上所述,我们的模型在子空间聚类领域做出了创新,获取了数据集中的结构性信息和数据间的非线性关系。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
1.一种基于学习低秩表达的子空间聚类方法,其特征在于:包括以下步骤:
s1.提出模型:构建根据数据集x获取自我表达矩阵z的模型,并确定误差拟合项,对自我表达矩阵z和误差拟合项同时使用核范数,然后加入入流形项tr(zlzt),帮助模型提取数据间的非线性关系,获得最终的模型;
s2.模型优化:采用alm的方法交替迭代优化步骤s1中得到的模型;
s3.应用模型:输入待聚类的数据集x,按照步骤s1~s2获得相应的自我表达矩阵z:
s4.根据自我表达矩阵z去做谱聚类,实现完整的子空间聚类算法:将自我表达矩阵z作为谱聚类输入的相似矩阵,通过谱聚类算法得到最终的聚类的簇的划分。
2.根据权利要求1所述的一种基于学习低秩表达的子空间聚类方法,其特征在于:所述步骤s1包括:
s101.构建自我表达矩阵z:
其中,xi指的是数据集x中的第i个样本;xj指的是数据集x中的第j个样本;zji为自我表达矩阵z的第j行第i列,表示以xj作为基底来表示样本xi的表达系数;数据集x由待处理的二维图像组成,是输入的数据样本的集合;
s102.对自我表达矩阵z和误差拟合项同时使用核范数;
根据s101中矩阵的自我表达形式,确定误差拟合项为
考虑到低秩的z具有清晰的类结构,同时对自我表达矩阵和误差拟合项采用核范数,保证矩阵z的低秩结构,得到如下模型:
λ>0,表示模型的平衡参数;
s103.在步骤s102得到的模型上加入流形项tr(zlzt),帮助模型提取数据间的非线性关系,得到最终的模型:
3.根据权利要求1所述的一种基于学习低秩表达的子空间聚类方法,其特征在于:所述步骤我们s3中采用矩阵形式的二维图像作为数据集x来实现矩阵的自我表达,自我表达矩阵z大小为n×n的,n为样本的个数。
技术总结