预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

垃圾短信数据挖掘论文1垃圾短信治理面临的调整目前的垃圾短信过滤的方法主要有黑名单和白名单监控技术但是短信中心对黑白名单处理数量有上限要求;基于关键字的过滤技术但是这种技术不能灵活识别和更新关键字;基于内容的过滤技术可分为基于规则的过滤和基于概率统计的过滤;基于数据挖掘方法的垃圾短信用户识别目前基本上都使用IBMSPSSModeler平台的决策树和逻辑回归经典算法识别垃圾短信用户由于选取的建模数据不全面以及算法本身各自存在不足使得建模效果受到影响。为建立白名单和科学封堵模型相结合的垃圾短信治理模式实现精细化、行为级、高效性的垃圾短信治理本方案提出了基于客户综合特征分析的垃圾短信治理技术方案:基于随机森林分类的垃圾短信用户预测模型。通过客户入网属性客户通信行为信息、客户账单信息等多个维度构建模型对垃圾短信号码进行识别和治理。相比传统基于短信内容识别、发送量控制的事中控制本系统能够进行垃圾短信发送行为预测配合垃圾短信拦截系统将垃圾短信在未形成大规模发送前拦截。实验结果证明该模型能够有效的识别垃圾短信号码对监控系统拦截垃圾短信起到很好的辅助作用。2大数据挖掘的原理与优势大数据是指数据量很大(一般是TB到PB数量级)的巨量资料无法通过主流软件工具在合理时间内完成数据处理并获取有价值的信息。数据大多以非结构化或者半结构化数据为主大数据具有4V特点:Volume、Velocity、Variety、Veracity。大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。数据挖掘是一种新的信息处理技术其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理从中提取辅助商业决策的关键性数据。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等它们分别从不同的角度对数据进行挖掘。大数据挖据的数据源和处理方式对比。3数据挖据流程和模型选取3.1数据挖掘的主要流程数据挖掘主要包括以下6大步骤。(1)商业理解:确定挖掘目标以及产生一个项目计划。(2)数据理解:知晓有哪些数据以及数据的特征是什么。(3)数据准备:对数据作出转换、清洗、选择、合并等工作。(4)建模:根据挖掘目标确定适合的模型建模并对模型进行评估。(5)模型评估:评估建模效果对效果较差的结果我们需要分析原因。(6)结果部署:用所建挖掘模型去解决实际问题它还包括了监督、维持、产生最终报表、重新评估模型等过程。3.2垃圾短信治理指标体系设计垃圾短信用户识别建模数据主要从信令监测系统、经营分析系统获取所获取的用户行为数据主要包括用户通信行为信息、用户基础业务属性、用户通信业务信息等7个维度。其中用户通信行为信息包括活动轨迹、终端IMEI和数据业务访问等信息。3.3模型的选取对白名单用户的识别可以利用社交网络模型与业务规则相结合的方法。利用社交网络进行白名单用户识别重点考虑用户之间发生的通信行为、增值业务交互行为等群体行为通过对用户之间关系的辨识。本文建模的重点着眼于垃圾短信用户的识别及其治理。3.3.1现有垃圾短信识别模型的优势与不足识别垃圾短信用户是数据挖掘中的分类问题数据挖掘中常用的分类算法主要有逻辑回归、决策树、贝叶斯网络等算法。其中神经网络因本身算法的复杂性造成模型结果解释性较差模型落地较困难而很少在实际项目中使用。目前识别垃圾短信的数据挖掘模型基本上为逻辑回归模型和决策树模型。决策树模型主要具有以下优势:模型非常直观容易让人理解和应用;决策树搭建和应用的速度比较快;决策树对于数据分布没有严格要求;受缺失值和极端值对模型的影响很小。但是使用决策树作为垃圾短信用户识别模型主要存在以下不足。(1)决策树最大缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择却不从整体上思考最优的划分因此它所做的选择只能是某种意义上的局部最优选择。(2)决策树缺乏像回归或者聚类那样丰富多样的检测指标和评价方法。(3)容易出现过拟合。当某些自变量的类别数量比较多或者自变量是区间型时决策树过拟合的危险性会增加。(4)决策树算法对区间型自变量进行分箱操作时无论是否考虑了顺序因素都有可能因分箱丧失某些重要信息。尤其是当分箱前的区间变量与目标变量有明显的线性关系时这种分箱操作造成的信息损失更为明显。相比于数据挖掘建模常用的其它算法如决策树、神经网络、支持向量机等逻辑回归技术是最成熟得到广泛应用逻辑回归模型主要存在以下不足。(1)变量之间的多重共线性会对模型造成影响。(2)应删除异常值否则它