预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113987118A(43)申请公布日2022.01.28(21)申请号202111154517.2G06Q30/06(2012.01)(22)申请日2021.09.29(71)申请人阿里巴巴(中国)有限公司地址310052浙江省杭州市滨江区长河街道网商路699号4号楼5楼508室(72)发明人张浩应森辞董宇霍承富周凯任卫军(74)专利代理机构北京开阳星知识产权代理有限公司11710代理人袁义科(51)Int.Cl.G06F16/33(2019.01)G06F40/284(2020.01)G06F40/216(2020.01)G06Q50/04(2012.01)权利要求书2页说明书9页附图3页(54)发明名称语料的获取方法、装置、设备及存储介质(57)摘要本公开实施例涉及一种语料的获取方法、装置、设备及存储介质,其中,该方法通过获取对象的多个信息文本,分别对每个信息文本进行处理,得到每个信息文本的中间语料,中间语料中包括信息文本中的至少部分词语,之后可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。本方案避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大的词典,节省了资源。CN113987118ACN113987118A权利要求书1/2页1.一种语料的获取方法,其特征在于,包括:获取对象的多个信息文本;分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部分词语;针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料。2.根据权利要求1所述的方法,其特征在于,所述分别对每个信息文本进行处理,得到每个信息文本的中间语料,包括:分别对每个信息文本进行分词处理,得到每个信息文本对应的第一分词结果;基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料;其中,所述第一分词结果中包括所述信息文本拆分得到的单个文字和/或单词。3.根据权利要求2所述的方法,其特征在于,所述基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料,包括:针对每个信息文本的第一分词处理结果,从所述第一分词处理结果中删除第一预设字符,得到所述信息文本的第二分词处理结果;基于所述信息文本的第二分词处理结果生成所述信息文本的中间语料;其中所述第一预设字符包括标点符号和/或空格。4.根据权利要求3所述的方法,其特征在于,所述基于所述信息文本的第二分词处理结果生成所述信息文本的中间语料,包括:将所述第二分词处理结果中具有数字含义的词替换为第二预设字符,得到第三分词处理结果;将所述第三分词处理结果作为中间语料。5.根据权利要求1‑4中任一项所述的方法,其特征在于,所述针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料,包括:将所述中间语料中相邻的两个词进行组合,得到多个组合词;针对每个组合词,将所述组合词的词频与所述组合词的TFIDF值进行乘积运算,得到第一运算值;将所述第一运算值最大的目标组合词加入所述中间语料,并删除所述中间语料中组合得到所述目标组合词的词;跳转到所述将所述中间语料中相邻的两个词进行组合,得到多个组合词的步骤继续执行,直到基于所述中间语料得到的组合词的词频均小于预设词频为止,将所述中间语料中的词确定为所述对象的目标语料。6.一种语料的获取装置,其特征在于,包括:获取模块,用于获取对象的多个信息文本;处理模块,用于分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部分词语;确定模块,用于针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的2CN113987118A权利要求书2/2页目标语料。7.根据权利要求6所述的装置,其特征在于,所述处理模块,包括:处理子模块,用于分别对每个信息文本进行分词处理,得到每个信息文本对应的第一分词结果;生成子模块,用于基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料;其中,所述第一分词结果中包括所述信息文本拆分得到的单个文字和/或单词。8.根据权利要求7所述的装置,其特征在于,所述生成子模块,用于:针对每个信息文本的第一分词处理结果,从所述