预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于内容的垃圾短信过滤技术研究综述报告 随着移动通信技术的快速发展,垃圾短信带来的麻烦也越来越大。为了打击垃圾短信的滋生和传播,许多技术手段被应用到了垃圾短信过滤中,其中基于内容的垃圾短信过滤技术被广泛使用。本文将对基于内容的垃圾短信过滤技术进行综述。 一、垃圾短信的类型 在进行垃圾短信过滤技术研究之前,我们需要先了解垃圾短信的种类。目前主要有以下几种: 1.商业广告短信:主要是企业通过手机短信对指定人群进行推销产品或服务。 2.诈骗短信:通过短信欺诈从而非法获得收件人财产的短信,例如诈骗短信、仿冒短信等。 3.调查问卷短信:主要是为了采集用户信息,进行市场调查和信息收集。 4.色情短信:通过发送包含色情内容的短信方式,制造低俗、色情氛围或在短信中散布淫秽内容等。 5.申诉抱怨短信:就是一些垃圾信息或者投诉信息,是一种情感倾或者负面标签的短信。 二、基于内容的垃圾短信过滤技术简介 基于内容的垃圾短信过滤技术是通过挖掘垃圾短信的文本形式,建立一个具备判别垃圾短信的模型,将垃圾短信自动过滤掉的一种技术。 基于内容的垃圾短信过滤技术主要分为以下几种: 1.基于规则的过滤技术 基于规则的垃圾短信过滤技术是通过制定规则语句,对短信进行匹配和判断的方法。例如,对于广告短信,可以制定一些关键词或者标志,比如“股票”、“天天”、“特价”等关键词,当短信内容中包含这些关键词时,就可以将其判别为垃圾短信。 2.基于主题的过滤技术 基于主题的垃圾短信过滤技术是通过建立主题分类模型,将短信归类为不同主题的方法。比如对于垃圾短信中的广告短信进行分类,可以将其分为房地产、保险、股票等主题,然后对每个主题分别进行判断和过滤。 3.基于机器学习的过滤技术 基于机器学习的垃圾短信过滤技术是通过训练模型,从垃圾短信和正常短信中提取特征并进行判别的一种方法。通常采用支持向量机(SVM)、朴素贝叶斯(NB)等机器学习技术。 三、基于内容的垃圾短信过滤技术研究现状 目前,基于内容的垃圾短信过滤技术已经逐渐成熟,并且被广泛应用。下面对一些具有代表性的研究进行介绍。 1.基于主题建模的过滤技术 基于主题建模的垃圾短信过滤技术是指将短信分组为不同主题的方法,通常采用主题模型进行训练。 研究人员Zhang等(2011)就采用了基于主题的方法,将短信分为“骗子短信”、“诈骗短信”、“广告短信”、“推销短信”和“垃圾邮件”等不同类别,然后通过支持向量机(SVM)分类器对其进行分类判别。 2.基于机器学习的过滤技术 基于机器学习的垃圾短信过滤技术是将垃圾短信和正常短信进行标注,然后提取特征并构建分类器,进而对垃圾短信进行自动分类判别。 研究人员Wang等(2016)在研究中采用机器学习和随机森林分类器,对垃圾短信进行分类判别。研究结果表明,该方法具有良好的分类效果。 3.基于半监督学习的过滤技术 基于半监督学习的垃圾短信过滤技术是利用未标注的数据进行训练,从而通过有标签数据和无标签数据的组合来提高分类器的准确率。 研究人员Guo等(2013)在研究中采用基于半监督学习的短信分类技术,对垃圾短信进行分类判别。结果表明,该方法能更好地提高分类器的准确率。 四、结论 随着移动互联网时代的到来,垃圾短信问题愈发严重,使得更多的人受到骚扰和侵犯。而基于内容的垃圾短信过滤技术,是目前解决该问题中比较具有实际意义和广泛应用价值的技术。这些技术涵盖了基于规则、主题建模、机器学习和半监督学习等多种方法,每种方法都有不同的优缺点和适用范围。未来,我们应该进一步探索垃圾短信过滤技术,在保证过滤效果的同时,不断提高其分类器的准确率和效率。