预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114169326A(43)申请公布日2022.03.11(21)申请号202111446906.2(22)申请日2021.11.30(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人汪永清(74)专利代理机构北京博浩百睿知识产权代理有限责任公司11134代理人宫传芝(51)Int.Cl.G06F40/289(2020.01)G06F40/216(2020.01)G06F16/335(2019.01)权利要求书2页说明书7页附图2页(54)发明名称基于分词的文本处理方法、装置、电子设备和存储介质(57)摘要本公开提供了一种基于分词的文本处理方法、装置、电子设备和存储介质,涉及数据处理技术领域,尤其涉及大数据技术领域和云服务技术领域。具体实现方案为:对原始文本进行分词处理,得到多个字组合片段;确定多个字组合片段中每个字组合片段的关联度;去除多个字组合片段中的目标字组合片段,生成至少一个目标文本,其中,目标字组合片段包含的两个字组合片段的关联度小于预设阈值。容易注意到的是,通过计算字组合片段的关联度,过滤目标字组合片段,得到至少一个由至少一个过滤后字组合片段生成的目标文本,无需预先设置目标文本字段长度,进而解决了相关技术中难以得到多字短语的技术问题,达到了可以获取多字短语的技术效果。CN114169326ACN114169326A权利要求书1/2页1.一种基于分词的文本处理方法,包括:对原始文本进行分词处理,得到多个字组合片段;确定所述多个字组合片段中每个字组合片段的关联度,其中,所述关联度用于表征相邻两个字组合片段组成词语的概率;去除所述多个字组合片段中的目标字组合片段,生成至少一个目标文本,其中,所述目标字组合片段包含的两个字组合片段的关联度小于预设阈值。2.根据权利要求1所述的方法,其中,对所述原始文本进行分词处理,得到所述多个字组合片段包括:对所述原始文本进行分词处理,得到分词结果,其中,所述分词结果包括:多个初始片段,及每个初始片段的词性;基于所述每个初始片段的词性对所述多个初始片段进行过滤,得到所述多个字组合片段。3.根据权利要求1所述的方法,其中,确定所述多个字组合片段中所述相邻两个字组合片段的所述关联度包括:基于所述相邻两个字组合片段的出现概率,确定所述相邻两个字组合片段的凝固度;基于所述相邻两个字组合片段的信息熵,确定所述相邻两个字组合片段的自由度;基于所述凝固度和/或所述自由度,得到所述关联度。4.根据权利要求1所述的方法,其中,去除所述多个字组合片段中的所述目标字组合片段,生成所述至少一个目标文本包括:将所述相邻两个字组合片段的关联度与所述预设阈值进行比较;响应于所述关联度小于所述预设阈值,去除所述相邻两个字组合片段,得到过滤后的字组合片段;对所述过滤后的字组合片段进行整合,生成所述至少一个目标文本。5.根据权利要求4所述的方法,其中,对所述过滤后的字组合片段进行整合,生成所述至少一个目标文本包括:将所述过滤后的字组合片段中相邻的字组合片段进行合并,生成所述至少一个目标文本。6.根据权利要求1至5中任意一项所述的方法,在去除所述多个字组合片段中的所述目标字组合片段,生成所述至少一个目标文本之后,所述方法还包括:确定每个目标文本的词频;按照词频从大到小的顺序对所述至少一个目标文本进行排序,得到排序后的文本。7.一种基于分词的文本处理装置,包括:分词模块,用于对原始文本进行分词处理,得到多个字组合片段;第一确定模块,用于确定所述多个字组合片段中每个字组合片段的关联度,其中,所述关联度用于表征相邻两个字组合片段组成词语的概率;生成模块,用于去除所述多个字组合片段中的目标字组合片段,生成至少一个目标文本,其中,所述目标字组合片段包含的两个字组合片段的关联度小于预设阈值。8.根据权利要求7所述的装置,其中,所述分词模块包括:分词单元,用于对所述原始文本进行分词处理,得到分词结果,其中,所述分词结果包2CN114169326A权利要求书2/2页括:多个初始片段,及每个初始片段的词性;过滤单元,用于基于所述每个初始片段的词性对所述多个初始片段进行过滤,得到所述多个字组合片段。9.根据权利要求7所述的装置,其中,所述第一确定模块包括:第一确定单元,用于基于所述相邻两个字组合片段的出现概率,确定所述相邻两个字组合片段的凝固度;第二确定单元,用于基于所述相邻两个字组合片段的信息熵,确定所述相邻两个字组合片段的自由度;处理单元,用于基于所述凝固度和/或所述自由度,得到所述关联度。10.根据权利要求7所述的装置,其中,所述生成模块包括:比较单元,用于将所述相邻两个字组合片段的关联度与所述预设阈值进行比