预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110110082A(43)申请公布日2019.08.09(21)申请号201910294678.8(22)申请日2019.04.12(71)申请人黄红梅地址510610广东省广州市天河区沾益直街1号申请人何卓华谢新屋(72)发明人黄红梅何卓华谢新屋(74)专利代理机构北京联瑞联丰知识产权代理事务所(普通合伙)11411代理人张学府(51)Int.Cl.G06F16/35(2019.01)G06F16/903(2019.01)权利要求书2页说明书5页附图1页(54)发明名称多源异构数据融合优化方法(57)摘要本发明公开了一种多源异构数据融合优化方法,包括如下步骤:A)对数据实例、类别和属性进行提取和分析,建立词库和短文本库;B)从互联网获取多源异构数据;C)对多源异构数据进行规范化处理,生成短文本;短文本有多个词构成,规范化处理包括分词和去除停用词;D)将短文本作为待匹配短文本,将待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;E)根据短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;F)对数据融合结果进行评价,得到评价结果;评价结果包括优、良、中和差。本发明能建立完整性、准确性和一致性较强的高质量的大数据知识库。CN110110082ACN110110082A权利要求书1/2页1.一种多源异构数据融合优化方法,其特征在于,包括如下步骤:A)对数据实例、类别和属性进行提取和分析,建立词库和短文本库;B)从互联网获取多源异构数据;C)对所述多源异构数据进行规范化处理,生成短文本;所述短文本由多个词构成,所述规范化处理包括分词和去除停用词;D)将所述短文本作为待匹配短文本,将所述待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;E)根据所述短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;F)对所述数据融合结果进行评价,得到评价结果;所述评价结果包括优、良、中和差。2.根据权利要求1所述的多源异构数据融合优化方法,其特征在于,所述步骤D)进一步包括:D1)计算所述待匹配短文本与短文本库中的短文本之间的字符匹配因子;D2)计算所述待匹配短文本与短文本库中的短文本之间的词匹配因子;D3)根据所述字符匹配因子和词匹配因子,对所述待匹配短文本与短文本库中的短文本进行匹配,计算短文本匹配因子。3.根据权利要求2所述的多源异构数据融合优化方法,其特征在于,所述字符匹配因子采用如下公式进行计算:其中,F1表示所述字符匹配因子,c1表示所述待匹配短文本包含的字符数,c2表示所述短文本库中的短文本包含的字符数,p表示匹配的字符数,h表示换位的数目。4.根据权利要求3所述的多源异构数据融合优化方法,其特征在于,所述词匹配因子采用如下公式进行计算:其中,F2表示所述词匹配因子,n表示维数较高短文本向量的维数,σ表示修正因子,σ∈[0.9,1.3],用于修正增加词带来的误差,Ai为所述待匹配短文本中的第i个词,Bi为短文本库中的短文本中的第i个词。5.根据权利要求4所述的多源异构数据融合优化方法,其特征在于,所述短文本匹配因子采用如下公式进行计算:其中,Y表示短文本的匹配因子;设定匹配阈值Y0,若Y≥Y0,则说明所述待匹配短文本与短文本库中的短文本相匹配,若Y<Y0,则说明所述待匹配短文本与短文本库中的短文本不匹配。6.根据权利要求5所述的多源异构数据融合优化方法,其特征在于,所述步骤E)具体2CN110110082A权利要求书2/2页为:将采集的商品名称、属性名称和属性值构成集合L={l1,l2,…,lm},m表示集合中元素的数目,计算li和lj之间的短文本匹配因子,i,j=1,2,…,m,根据短文本匹配因子,生成匹配度矩阵:其中,Z表示匹配度矩阵,Y(li,lj)表示li和lj之间的短文本匹配因子,i,j=1,2,…,m。7.根据权利要求6所述的多源异构数据融合优化方法,其特征在于,若所述匹配度矩阵中元素的值小于匹配阈值,则记为0,将匹配度大于所述匹配阈值的元素进行融合,对于大于匹配阈值的两个元素,将匹配度较大的元素作为融合结果输出。3CN110110082A说明书1/5页多源异构数据融合优化方法技术领域[0001]本发明涉及数据融合领域,特别涉及一种多源异构数据融合优化方法。背景技术[0002]多源数据融合技术指利用相关手段将调查、分析获取到的所有信息全部综合到一起,并对信息进行统一的评价,最后得到统一的信息的技术。该技术研发出来的目的是将各种不同的数据信息进行综合,吸取不同数据源的特点然后从中提取出统一的,比单一数据更好、更丰富的信息。目前有一些多源数据融合技术通过对数据进行预处理和文本匹配,实现了多