预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113609360A(43)申请公布日2021.11.05(21)申请号202110958424.9(22)申请日2021.08.19(71)申请人武汉东湖大数据交易中心股份有限公司地址430000湖北省武汉市东湖新技术开发区高新大道999号龙山创新园一期F3栋2101室(72)发明人杜乐(74)专利代理机构武汉蓝宝石专利代理事务所(特殊普通合伙)42242代理人万畅(51)Int.Cl.G06F16/906(2019.01)G06F16/903(2019.01)G06N5/04(2006.01)权利要求书2页说明书9页附图2页(54)发明名称一种基于场景化多源数据融合分析的方法和系统(57)摘要本发明涉及一种基于场景化多源数据融合分析的方法和系统,该方法包括:获取设定场景多源数据的样本,对多源数据进行预处理,预处理包括特征提取;利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案;通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。CN113609360ACN113609360A权利要求书1/2页1.一种基于场景化多源数据融合分析的方法,其特征在于,所述方法包括:步骤1,获取设定场景多源数据的样本,所述多源数据包括:结构化数据、半结构数据和非结构化数据;步骤2,对所述多源数据进行预处理,所述预处理包括特征提取;步骤3,利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;步骤4,利用关联规则挖掘算法提取所述多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。2.根据权利要求1所述的方法,其特征在于,所述步骤1中获取所述多源数据的方法包括:从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据。3.根据权利要求1所述的方法,其特征在于,所述步骤2包括:步骤201,根据设定场景的特点对所述多源数据进行文本分词的预处理;步骤202,根据设定的标注策略,对文本中的实体关系进行标注;步骤203,以所述标注后的文本作为训练数据进行模型训练学习;步骤204,用训练好的所述模型对预处理后的所述多源数据进行实体关系联合提取,得到所需要的实体关系;对于不完整的实体关系,以设定的关键词作为种子爬虫,采集对应的相关信息完成对所述实体关系的数据补齐。4.根据权利要求1所述的方法,其特征在于,所述步骤3中形成该设定场景下的多源数据特征集合的过程包括:用各个特征的训练样本训练一组分类器,将分类器输出的概率密度值作为进行特征融合后的特征向量。5.根据权利要求4所述的方法,其特征在于,进行融合的所述特征为:A=[a1,a2,a3,a4.....an]和B=[b1,b2,b3,b4....bm]时,所特征融合过程包括:利用特征的训练样本的A特征训练n个分类器f:f1,f2....fn;计算xi=fi(ai),i=1.2.3....n;利用特征的训练样本的B特征训练m个分类器g:g1,g2....gn,计算yj=gj(bj),j=1.2.3....m;所述分类器f和分类器g为相同的模型,且所述分类器f和分类器g的输出为某一类别的概率将得到的概率密度值作为进行特征融合后的特征向量:C=[x1.x2.x3.....xn.y1.y2.y3......ym]。6.根据权利要求1、4或5所述的方法,其特征在于,所述步骤3得到多源数据特征集合之后还包括:对所述多源数据进行融合处理;该融合处理过程采用Adaboost算法实现,包括:初始化特征集合的训练样本的权重分布;使用具有权值分布Dm(m=1,2,3…N)特征集合的训练样本集进行学习,得到弱分类器;所述弱分类器训练过程中,对于已经被准确的分类的特征集合的训练样本,构造下一个训练样本集时降低该特征结合的训练样本的权重;对于没有被准确的分类的特征集合的训练样本,构造下一个训练样本集时提高该特征结合的训练样本的权重;更新权重后的所述训练样本集被用于训练下一个分类器;同时根据所述弱分类器分错的特征集合的训练样本x对应的权重之和得到给弱分类器对应的话语权;2CN113609360A权利要求书2/2页将各个所述弱分类器组合成强分类器,根据各个所述弱分类器的话语权大小决定该弱分类器在所述强