预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113723073A(43)申请公布日2021.11.30(21)申请号202110786655.6(22)申请日2021.07.12(71)申请人大箴(杭州)科技有限公司地址310000浙江省杭州市拱墅区古运路85号古运大厦四层491室(72)发明人陈思思(74)专利代理机构北京中强智尚知识产权代理有限公司11448代理人韩明(51)Int.Cl.G06F40/211(2020.01)G06F40/295(2020.01)G06F40/30(2020.01)G06F16/33(2019.01)权利要求书2页说明书8页附图4页(54)发明名称语料的处理方法及装置、电子设备、存储介质(57)摘要本发明提供了一种语料的处理方法及装置、电子设备、存储介质,该方法包括:将目标语料拆分成多个子语料;选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。通过本发明,解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题。CN113723073ACN113723073A权利要求书1/2页1.一种语料的处理方法,其特征在于,包括:将目标语料拆分成多个子语料;选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。2.根据权利要求1所述的方法,其特征在于,在将目标语料拆分成多个子语料之后,所述方法还包括:根据时间关键词库从所述多个子语料中筛选出与时间有关的第一子语料,其中,所述时间关键词库包括用于表达时间的时间关键词以及时间正则表达式;检测与所述第一子语料相邻的第二子语料中是否含有与时间有关的语料;若检测到所述第二子语料中没有与时间有关的语料,则将所述第一子语料和所述第二子语料进行组合,得到第三子语料。3.根据权利要求2所述的方法,其特征在于,在得到所述第三子语料之后,所述方法还包括:更新目标列表,以使所述第三子语料的存储位置替换所述第一子语料和第二子语料的存储位置;其中,所述目标列表为在将所述目标语料拆分成所述多个子语料之后,通过基于所述多个子语料的上下文顺序存储所述多个子语料生成的。4.根据权利要求1所述的方法,其特征在于,所述提取所述目标子语料中的时间信息包括:对所述目标子语料进行清洗,得到第四子语料;基于时间正则库从所述第四子语料中提取时间关键词;对所述时间关键词的时间格式进行标准化,得到所述目标子语料中的时间信息。5.根据权利要求4所述的方法,其特征在于,所述目标语料包括文本语料,所述对所述目标子语料进行清洗包括以下至少之一:删除所述目标子语料中的空格或语气助词;修改所述目标子语料中的汉字数字为阿拉伯数字;将所述目标子语料中汉字格式的时间关键词转换成时间格式的时间关键词。6.根据权利要求1所述的方法,其特征在于,所述关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料,包括:利用命名实体识别模型提取所述目标子语料中的多个实体关键词;按照预先设定的语料组合规则将所述目标子语料中的所述时间信息与所述多个实体关键词进行组合,得到所述关联语料。7.根据权利要求1所述的方法,其特征在于,所述目标语料包括文本语料,所述将目标语料拆分成多个子语料包括:利用字符串切分方法将所述文本语料拆分成多个文本子语料。8.一种语料的处理装置,其特征在于,包括:拆分模块,用于将目标语料拆分成多个子语料;提取模块,用于选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取2CN113723073A权利要求书2/2页所述目标子语料中的时间信息;关联模块,用于关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。3CN113723073A说明书1/8页语料的处理方法及装置、电子设备、存储介质技术领域[0001]本发明涉及大数据领域,具体而言,涉及一种语料的处理方法及装置、电子设备、存储介质。背景技术[0002]目前,随