预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于SVM的半监督迁移学习的算法研究 摘要在数据挖掘中,合理的采用相关数据域去帮助新的数据域分类已经成了一项重要课题。半监督学习已经广泛应用于数据挖掘、机器学习的分类等研究中,但结合迁移学习方式的方法却较少见。SVM在处理大数据方面也越受到关注,不同学习方式结合SVM的算法也陆续提出。本文结合半监督SVM(Semi-supervisedSVM)算法与迁移学习的方法,给出了一种半监督迁移SVM分类方法,通过对辅助数据域的局部与目标域的全局一致学习(LLGC)得到目标方程,并以半监督的方式对目标方程进行迭代,收敛得到最终的SVM分类器,对目标任务中未标记样本得到最终标签。应用该方法得到分类器具有较高的精确度。 关键词数据挖掘;半监督学习;迁移学习;一致学习 1引言 在传统分类方法中,大部分都是有监督的,即用带标签的数据来训练分类模型,并且只局限于目标数据域。然而,收集带标签的实例是非常困难且要耗费巨大的[1],不带标签的数据却是相当巨大,很容易获取。如果只有少量的带标签的数据和大量未标记的数据可用,那么半监督学习在一定程度上便能弥补因训练数据不足而导致过拟化的分类误区。 很多机器学习的方法,无论是传统的机器学习还是半监督学习问题,都是建立在一个共同假设:测试数据与训练数据属于统一数据分布与同一特征空间。一旦数据分布有差异,很多学习方法便无法表现的很好。于是又要重新标记大量数据去训练模型来适应新的数据分布,这样的代价是昂贵的。基于这个局限,便引入了迁移学习[3],目的是从其他相关辅助数据域中迁移知识去帮助目标域中解决学习任务。例如,在网页分类中,我们能利用迁移学习从大学网页迁移知识来帮助Facebook.com分类任务训练一个分类器[4]。虽然大学网页与社交网络的数据分布十分不同,但是始终存在一些共同的分类知识来构建知识迁移的桥梁帮助提高分类器性能。 近年来,随着研究的深入,半监督、迁移学习等方法也逐渐应用于数据分类、社交网络分析和图像处理等方面。如QiangYang等人迁移学习对于文本挖掘的应用[5]。目前,在解决实际的文本分类问题中,人们提出了不同类型文本分类方法,很多针对文本像基于贝叶斯的文本分类方法[6]、基于SVM的文本分类方法[7][8]以及基于KNN的文本分类方法[9]等。随后基于这些基本方法的迁移学习也成为了当今热点,如跨域SVM方法[10][11]。而迁移学习在各领域的应用也是层出不穷,如在社交网络的推荐系统中便提出了跨域推荐(CDR)[20]和社交网络中的异构迁移对于图像聚类的方法[21],在图像处理和信号处理方面也有应用[22][23][24]。 在这篇文章,我们提出了一种基于SVM的半监督迁移学习方法,我们的贡献有:(1)我们合理的利用了目标域中未标记的数据与少量带标签的数据,并采用局部化SVM(LSVM)进行局部和全局一致学习(LLGC),采用半监督的学习方式来加强分类器精度[12][18]。并给出了这种方法的目标方程;(2)为了给分类器得到更好的泛化误差,我们引入了迁移学习的方法对目标方程进行迭代,给出了迭代终止目标函数,产生更为精确的分类器并得到数据标签[13]。 本文的组织结构如下。在第二节,我们将简要介绍一下基于SVM的半监督学习和基于SVM的迁移学习方法(TLSVM)。在第三节,我们提出基于SVM的半监督迁移学习方法。实验部分的内容则在第四节。最后,第五节是我们对以后工作的总结。 2相关工作 由于我们关注的是基于SVM的半监督迁移学习方法,所以我们回顾一下基于SVM的半监督学习与迁移学习等方法。 2.1半监督学习 近年来,半监督学习受到越来越广泛的关注。所谓半监督学习就是利用目标域中未带标签的数据与带标签的训练数据集一同训练分类器。这在某种程度上克服了传统机器学习中因为带标签训练数据集不足而导致分类器不准确的问题。各式各样的半监督方法也被陆续的提出。例如,Wajeed[9]提出基于KNN的半监督文本分类方法,这种半监督方法使用了不同的相似度测量与不同向量产生技术来提高分类的准确度。但是由于文本数据的维度高,这种方法的计算量相当大。而V.Vapnik[13]提出的自训练半监督SVM算法,很好的利用了大量未标记数据结合少量带标签数据共同训练分类器。然后通过不断的迭代直到未标记数据标签收敛。这种方法计算量相对较小,但是准确度相对较低。接着YongMa[13]在V.Vapnik[13]的自训练半监督SVM算法上提出了一种改进的方法,这个方法将类别之间的差异性用一个散度矩阵表示出现,然后优化了目标方程。 以上只是例举了分别以两种不同的算法作为基础来实现半监督学习,虽然基于KNN的相似度测量可能会精度更高,但是计算量大,实现起来难度大,然而基于SVM的计算量小。但是,如