预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114138945A(43)申请公布日2022.03.04(21)申请号202210058350.8(22)申请日2022.01.19(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人田有朋刘海波李俊黄亚东王小卫朱文嘉(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309代理人陈霁周良玉(51)Int.Cl.G06F16/33(2019.01)G06F40/242(2020.01)G06F40/295(2020.01)权利要求书3页说明书11页附图7页(54)发明名称数据分析中的实体识别方法和装置(57)摘要本说明书实施例提供一种数据分析中的实体识别方法和装置,方法包括:获取用户输入的自然语言文本,所述自然语言文本用于表达用户对目标数据的数据分析需求;获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,所述多个类别与所述目标数据的数据维度和/或数据分析意图相关;针对所述自然语言文本中包括的字符,执行字符与所述多个类别的实体词典中包括的词的匹配处理,将匹配结果作为识别出的对应类别中的实体。能够满足数据分析中的准确性和可解释性的要求。CN114138945ACN114138945A权利要求书1/3页1.一种数据分析中的实体识别方法,所述方法包括:获取用户输入的自然语言文本,所述自然语言文本用于表达用户对目标数据的数据分析需求;获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,所述多个类别与所述目标数据的数据维度和/或数据分析意图相关;针对所述自然语言文本中包括的字符,执行字符与所述多个类别的实体词典中包括的词的匹配处理,将匹配结果作为识别出的对应类别中的实体。2.如权利要求1所述的方法,其中,所述数据分析需求包括查询第一范围的所述目标数据,以及对该第一范围的所述目标数据进行第一方式的统计分析。3.如权利要求1所述的方法,其中,所述获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,包括:获取基于历史自然语言语料集合而构建的全局词典;获取基于所述目标数据归属的目标数据库的元数据信息和数据信息而构建的专有词典;所述全局词典和所述专有词典共同构成所述多个类别的实体词典。4.如权利要求1所述的方法,其中,所述多个类别包括时间类别、单位类别、意图类别、维度类别、维值类别中的至少一个;所述维度类别对应于所述目标数据归属的目标数据库中的字段名称,所述维值类别对应于所述目标数据库中的字段的具体取值。5.如权利要求3所述的方法,其中,所述专有词典中的各个词以三元组的形式存储,所述三元组包括数据表的名称、类别名称和字段名称。6.如权利要求1所述的方法,其中,所述执行字符与所述多个类别的实体词典中包括的词的匹配处理,包括:通过多轮迭代的方式按照顺序依次执行当前字符与所述多个类别的实体词典中包括的词的匹配处理;其中,在每一轮迭代中,将当前字符与实体词典中包括的词进行匹配,若匹配成功,则结束本轮迭代,若匹配不成功,则将当前字符与其下一个字符组合,将组合后的字符串与实体词典中包括的词进行匹配,直到匹配成功,则结束本轮迭代。7.如权利要求6所述的方法,其中,所述将组合后的字符串与实体词典中包括的词进行匹配,包括:若组合后的字符串与实体词典中包括的目标词完全一致,则确认所述目标词为该字符串的精确匹配结果;若组合后的字符串与实体词典中包括的目标词部分一致,且该字符串属于所述目标词的前缀部分,则确认所述目标词为该字符串的前缀匹配结果;若该字符串既存在精确匹配结果,也存在前缀匹配结果,则选取精确匹配结果作为其最终的匹配结果。8.如权利要求6所述的方法,其中,所述每一轮迭代中,将当前字符与实体词典中包括的词进行匹配之前,还包括:判断所述自然语言文本中是否存在连续数字;若判断出存在连续数字,则将该连续数字作为单个字符处理,将该连续数字作为当前字符,执行所述将当前字符与实体词典中包括的词进行匹配。9.如权利要求8所述的方法,其中,所述将该连续数字作为当前字符,执行所述将当前字符与实体词典中包括的词进行匹配,包括2CN114138945A权利要求书2/3页若该连续数字包括中文数字且带有中文单位,则将该连续数字中的中文数字转换为阿拉伯数字;将阿拉伯数字与中文单位组合后,与实体词典中包括的词进行匹配。10.如权利要求9所述的方法,其中,所述将阿拉伯数字与中文单位组合后,与实体词典中包括的词进行匹配,包括:将阿拉伯数字与中文单位组合后,进行数字泛化处理,得到第一泛化结果,以忽略具体数字的影响;将第一泛化结果与实体词典中包括的词进行匹配。11.如权利要求10所述的