预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114548075A(43)申请公布日2022.05.27(21)申请号202210177332.1(22)申请日2022.02.25(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人张玉皓(74)专利代理机构北京律智知识产权代理有限公司11438专利代理师王辉(51)Int.Cl.G06F40/216(2020.01)G06F40/232(2020.01)G06F40/151(2020.01)权利要求书2页说明书13页附图6页(54)发明名称文本处理方法、文本处理装置、存储介质与电子设备(57)摘要本公开提供了一种文本处理方法、文本处理装置、计算机可读存储介质与电子设备,属于自然语言处理技术领域。所述方法包括:获取待处理文本;提取所述待处理文本中的拼音序列,并将所述拼音序列划分为多个拼音单元;基于各所述拼音单元对应的候选汉字的初始概率和转移概率,计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率,所述初始概率为候选汉字在文本中的出现概率,所述转移概率为当前候选汉字后面出现下一候选汉字的概率;对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理,生成目标汉字序列。本公开可以将拼音文本转换为汉字文本,提高拼音文本的识别准确率。CN114548075ACN114548075A权利要求书1/2页1.一种文本处理方法,其特征在于,所述方法包括:获取待处理文本;提取所述待处理文本中的拼音序列,并将所述拼音序列划分为多个拼音单元;基于各所述拼音单元对应的候选汉字的初始概率和转移概率,计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率,所述初始概率为候选汉字在文本中的出现概率,所述转移概率为当前候选汉字后面出现下一候选汉字的概率;对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理,生成目标汉字序列。2.根据权利要求1所述的方法,其特征在于,所述将所述拼音序列划分为多个拼音单元,包括:基于预设的最大匹配长度,沿固定方向对所述拼音序列进行搜索,确定所述拼音序列中与预设拼音表中的拼音匹配的拼音串,以得到所述多个拼音单元。3.根据权利要求1所述的方法,其特征在于,所述基于各所述拼音单元对应的候选汉字的初始概率和转移概率,计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率,包括:按照各所述拼音单元在所述拼音序列中的顺序生成包含各拼音单元的观测序列;依据各所述拼音单元对应的候选汉字的初始概率和转移概率,通过隐马尔可夫模型计算所述观测序列对应的隐藏序列的维特比概率。4.根据权利要求1所述的方法,其特征在于,所述待处理文本包括一个或多个汉字,在对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理前,所述方法还包括:按照所述待处理文本中各所述汉字的汉字顺序和所述汉字序列中各汉字对应的拼音顺序,将所述待处理文本中的各个汉字和所述汉字序列中的各个汉字进行排列,生成所述待处理文本对应的汉字文本。5.根据权利要求4所述的方法,其特征在于,在对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理,生成目标汉字序列时,所述方法包括:按照预设的纠错规则检测所述汉字文本中的错误文本,所述错误文本包括所述汉字文本中的错误汉字、错误词组和错误语句中的任意一种或多种;使用所述错误文本的候选文本替换所述错误文本,并计算替换错误文本后得到的汉字序列的困惑度评分;当所述汉字文本的困惑度评分小于困惑度阈值时,将对应的汉字文本确定为所述目标汉字序列。6.根据权利要求5所述的方法,其特征在于,在按照预设的纠错规则检测所述汉字文本中的错误文本时,所述方法包括:利用预设的统计语言模型将所述汉字文本按照固定分段间隔进行分段,得到多个汉字串,并计算各所述汉字串的概率值;根据各所述汉字串的概率值,确定所述汉字文本中每个汉字的正确度评分;当任一汉字的正确度评分小于正确度阈值时,将所述任一汉字确定为错误汉字。7.根据权利要求5所述的方法,其特征在于,在按照预设的纠错规则检测所述汉字文本中的错误文本时,所述方法包括:在预先配置的词典数据中,遍历查找对所述汉字文本进行分词处理得到的各个词组,2CN114548075A权利要求书2/2页在未查找到任一词组时,将所述任一词组确定为错误词组。8.一种文本处理装置,其特征在于,所述装置包括:获取模块,用于获取待处理文本;划分模块,用于提取所述待处理文本中的拼音序列,并将所述拼音序列划分为多个拼音单元;计算模块,用于基于各所述拼音单元对应的候选汉字的初始概率和转移概率,计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率,所述初始概率为候选汉字在文本中的出现概率,所述