预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110728150A(43)申请公布日2020.01.24(21)申请号201910948525.0(22)申请日2019.10.08(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人余红(74)专利代理机构北京晋德允升知识产权代理有限公司11623代理人王戈(51)Int.Cl.G06F40/295(2020.01)G06F40/126(2020.01)权利要求书2页说明书12页附图3页(54)发明名称一种命名实体筛取方法、装置、设备和可读介质(57)摘要本说明书实施例公开了命名实体筛取方法、装置、设备及可读介质。该方案包括:提取待处理文档中的命名实体,得到第一集合,所述第一集合中的元素为所述命名实体;对所述第一集合中的每个所述命名实体进行字符拆分,得到第二集合,所述第二集合中的元素为对一个所述命名实体进行字符拆分得到的字符集合;根据所述第二集合中各个元素之间的子集关系,确定所述第二集合中的非子集字符集合,所述非子集字符集合不是所述第二集合中其他字符集合的子集;将所述非子集字符集合对应的命名实体确定为全称命名实体。CN110728150ACN110728150A权利要求书1/2页1.一种命名实体筛取方法,包括:提取待处理文档中的命名实体,得到第一集合,所述第一集合中的元素为所述命名实体;对所述第一集合中的每个所述命名实体进行字符拆分,得到第二集合,所述第二集合中的元素为对一个所述命名实体进行字符拆分得到的字符集合;根据所述第二集合中各个元素之间的子集关系,确定所述第二集合中的非子集字符集合,所述非子集字符集合不是所述第二集合中其他字符集合的子集;将所述非子集字符集合对应的命名实体确定为全称命名实体。2.如权利要求1所述的方法,所述对所述第一集合中的每个所述命名实体进行字符拆分,具体包括:对所述第一集合中的任一命名实体,进行字符拆分,得到与所述任一命名实体对应的预备字符集合;对所述预备字符集合中的元素进行去重,得到与所述任一命名实体对应的字符集合。3.如权利要求1所述的方法,所述根据所述第二集合中各个元素之间的子集关系,确定所述第二集合中的非子集字符集合,具体包括:对于第二集合中的任一字符集合,分别判断所述任一字符集合是否为其他字符集合的子集;若所述任一字符集合不是其他字符集合的子集,则将所述任一字符集合确定为非子集字符集合。4.如权利要求3所述的方法,所述对于第二集合中的任一字符集合,分别判断所述任一字符集合是否为其他字符集合的子集,具体包括:获取第一字符集合和第二字符集合,所述第一字符集合和所述第二字符集合是所述第二集合中的元素;判断所述第一字符集合是否为所述第二字符集合的子集,得到第一判断结果;若所述第一判断结果为是,则确定所述第一字符集合是其他字符集合的子集。5.如权利要求4所述的方法,所述得到第一判断结果之后,还包括:若所述第一判断结果为否,则获取第三字符集合,所述第三字符集合是所述第二集合中的除所述第一字符集合和所述第二字符集合之外的元素;判断所述第一字符集合是否为所述第三字符集合的子集,得到第二判断结果;若所述第二判断结果为是,则确定所述第一字符集合是其他字符集合的子集。6.如权利要求1所述的方法,所述提取待处理文档中的命名实体,具体包括:提取合同文件中的公司名称。7.一种命名实体筛取装置,包括:命名实体提取模块,用于提取待处理文档中的命名实体,得到第一集合,所述第一集合中的元素是所述命名实体;字符集合生成模块,用于对所述第一集合中的每个所述命名实体进行字符拆分,得到第二集合,所述第二集合中的元素为对一个所述命名实体进行字符拆分得到的字符集合;非子集字符集合确定模块,用于根据所述第二集合中各个元素之间的子集关系,确定所述第二集合中的非子集字符集合,所述非子集字符集合不是所述第二集合中其他字符集2CN110728150A权利要求书2/2页合的子集;全称命名实体确定模块,用于将所述非子集字符集合对应的命名实体确定为全称命名实体。8.一种命名实体筛取设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:提取待处理文档中的命名实体,得到第一集合,所述第一集合中的元素为所述命名实体;对所述第一集合中的每个所述命名实体进行字符拆分,得到第二集合,所述第二集合中的元素为对一个所述命名实体进行字符拆分得到的字符集合;根据所述第二集合中各个元素之间的子集关系,确定所述第二集合中的非子集字符集合,所述非子集字符集合不是所述第二集合中其他字符集合的子