预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113886659A(43)申请公布日2022.01.04(21)申请号202111170422.X(22)申请日2021.10.08(71)申请人科大讯飞股份有限公司地址230088安徽省合肥市高新区望江西路666号(72)发明人秦昊陶亚洲程磊舒翔张壮陈旭(74)专利代理机构北京集佳知识产权代理有限公司11227代理人张静(51)Int.Cl.G06F16/903(2019.01)G06K9/62(2006.01)权利要求书2页说明书10页附图3页(54)发明名称数据融合方法、相关设备及可读存储介质(57)摘要本申请公开了一种数据融合方法、相关设备及可读存储介质,由于知识库中与待处理数据的相似度最高且大于预设阈值的数据与待处理数据的重复度最高,本方案中,在获取待处理数据之后,先从与该待处理数据对应的知识库中确定与该待处理数据的相似度最高且大于预设阈值的数据作为目标数据,在确定出该目标数据之后,说明知识库中已经存在与待处理数据重复的数据,本方案中,并未将待处理数据直接构建至知识库中,因此,能够降低知识库中数据的重复率,本方案中,也未将待处理数据摒弃,而是将该待处理数据和该目标数据进行融合,可以对目标数据中的错误信息进行修正,可以对目标数据中的缺失信息进行补充,因此,能够提升知识库中数据的准确率。CN113886659ACN113886659A权利要求书1/2页1.一种数据融合方法,其特征在于,所述方法包括:获取待处理数据,以及与所述待处理数据对应的知识库;从所述知识库中确定目标数据,所述目标数据为与所述待处理数据的相似度最高且大于预设阈值的数据;将所述待处理数据与所述目标数据进行融合。2.根据权利要求1所述的方法,其特征在于,所述从所述知识库中确定目标数据,包括:确定第一字段,所述第一字段为预设的所述待处理数据所属领域的核心字段中的至少一个字段;基于所述第一字段,从所述知识库中确定候选数据集;从所述候选数据集中确定所述目标数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一字段,从所述知识库中确定候选数据集,包括:针对所述知识库中的每个数据,计算所述数据的第一字段与所述待处理数据的第一字段的第一相似度;将排名靠前的预设数量个第一相似度对应的所述知识库中的数据的集合确定为所述候选数据集。4.根据权利要求3所述的方法,其特征在于,所述从所述候选数据集中确定所述目标数据,包括:针对所述候选数据集中的每个候选数据,计算所述候选数据与所述待处理数据的第二相似度;确定最高第二相似度是否大于所述预设阈值;如果最高第二相似度大于所述预设阈值,则将最高第二相似度对应的候选数据确定为所述目标数据;如果最高第二相似度未大于所述预设阈值,则确定未确定到所述目标数据。5.根据权利要求4所述的方法,其特征在于,所述计算所述候选数据与所述待处理数据的第二相似度,包括:计算所述候选数据的第二字段与所述待处理数据的第二字段的相似度,作为所述候选数据与所述待处理数据的第二相似度;所述第二字段为预设的所述待处理数据所属领域的核心字段中除所述第一字段之外的至少一个字段。6.根据权利要求4所述的方法,其特征在于,所述计算所述候选数据与所述待处理数据的第二相似度,包括:将所述候选数据与所述待处理数据输入预先训练的相似度计算模型,所述相似度计算模型输出所述候选数据与所述待处理数据的第二相似度;其中,所述相似度计算模型是以训练数据对为训练样本,以标注的训练数据对的相似度为样本标签训练得到的。7.根据权利要求4所述的方法,其特征在于,所述计算所述候选数据与所述待处理数据的第二相似度,包括:将所述候选数据的多个字段与所述待处理数据的多个字段输入预先训练的最大熵模2CN113886659A权利要求书2/2页型,所述最大熵模型输出所述候选数据与所述待处理数据的第二相似度;其中,所述最大熵模型是以训练数据对的多个字段作为特征,以标注的训练数据对的相似度为目标训练得到的。8.根据权利要求1所述的方法,其特征在于,所述将所述待处理数据与所述目标数据进行融合,包括:基于预设的融合规则,将所述待处理数据与所述目标数据进行融合。9.根据权利要求5所述的方法,其特征在于,当所述待处理数据为影视领域的数据时,所述第一字段为影片名称和/或影片别名,所述第二字段为影片简介。10.根据权利要求1至9中任意一项所述的方法,其特征在于,所述方法还包括:如果所述知识库中不存在所述目标数据,则将所述待处理数据作为新增数据构建至所述知识库中。11.一种数据融合装置,其特征在于,所述装置包括:获取单元,用于获取待处理数据,以及与所述待处理数据对应的知识库;确定单元,用于从所述知识库中确定目标数据,所述目标数据为与所述待处理数据