预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于标签的数据挖掘技术的研究肖建军邱瑞肖崇星【摘要】近年来数据呈指数级增长人们对数据的利用能力越来越高特别是近几年兴起的大数据、云计算、人工智能等新兴技术汇集了人类有史以来最多最全的数据但是如何从数据中发现各种关系与规则从海量数据中找到更有价值的数据是人们急需解决的问题。数据挖掘技术是解决这一问题的根本方法而基于标签的数据挖掘技术是完整刻画描述人物特征的基本方法。【Abstract】Inrecentyearsthenumbershavegrownexponentially.People"sabilitytousedataisgettinghigherandhigherespeciallyinrecentyearsemergingtechnologiessuchasbigdatacloudcomputingandartificialintelligencehavecollectedthelargestandmostcompletedatainhumanhistory.Howeverhowtodiscoverallkindsofrelationshipsandrulesfromdataandfindmorevaluabledatafrommassdataisanurgentproblemthatpeopleneedtosolve.Dataminingtechnologyisthefundamentalmethodtosolvethisproblemandthedataminingtechnologybasedontagisthebasicmethodtodescribethecharacterscompletely.【關键词】数据挖掘;大数据;标签【Keywords】datamining;bigdata;tag【中图分类号】TP311【文献标志码】A【文章编号】1673-1069(2020)02-0156-021引言目前关于人员标签的研究主要集中在人物画像所谓人物画像[1]就是将人物的行为特征标签化是描述人物的数据是符合特定业务需求的对人员的形式化描述。人员标签的应用主要体现在商业营销领域各大购物网站通过记录用户的操作数据对用户进行建模给用户建立标签再给用户推荐其可能会购买的商品从而达到促进消费的目的如京东、淘宝、拼多多等。标签技术在公共安全领域的研究起步比较晚仅做到描述层级无法实现深度的挖掘和关联与具体业务的结合比较松散对于需要从海量情报信息中串并深挖、预测预警的业务工作来说仍需要进行定制化的研发。从数据中“淘金”从大量数据(文本)中挖掘出隐含的、未知的、对决策有潜在的关系、模型和趋势并用这些知识和规则建立用于决策支持的模型提供预测性决策支持的方法、工具和过程这就是数据挖掘。它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程是统计学、数据技术和人智能智能技术的综合。2技术背景2.1标签标签[2]是根据人物的行为、属性与具体的时间、地点、事件等数据结合后给出的人物的特征如有相同属性的人群性别(男或女)表示同性别的人员等。近年来在消费、金融等领域普遍利用标签对人物进行画像经过特征分析对人物进行合理分类从而帮助用户改进工作流程和工作模式。公共安全行业在标签系统的建设中起步较晚已经开展了一批标签系统建设但是并没有形成统一的方法论对实体标签进行数据挖掘对标签的实际应用分析比较少。2.2数据挖掘数据挖掘[3]是指在海量的、复杂的数据中挖掘出隐藏其中的、未知的、有用的信息的过程。数据挖掘涉及比较广泛融合了数据分析、决策支持、大数据、人工智能、云计算等内容。源数据的结构比较复杂可以是结构化的如关系型数据库等也可以是非结构化的如图片、音频、视频等或者是半结构化的如网页等。数据挖掘可分为直接和间接数据挖掘。直接数据挖掘就是利用现有的数据建立模型然后利用该模型对剩余的数据进行分析和描述包括分类、估值和预测等。间接数据挖掘是在所有的变量中寻找某种关系事先并未选出某一具体的变量[4]。3核心内容3.1数据挖掘技术数据挖掘技术包括分类、聚类、预测、时间序列分析、关联分析等。分类是根据已知的一些样本包括属性与类标号来得到