预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115033660A(43)申请公布日2022.09.09(21)申请号202210633245.2G06F40/247(2020.01)(22)申请日2022.06.06G06K9/62(2022.01)G06Q50/00(2012.01)(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦二层(72)发明人刘玉忠韩超孙磊蒋俊君陈玥霖(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201专利代理师罗岚(51)Int.Cl.G06F16/33(2019.01)G06F16/35(2019.01)G06F16/903(2019.01)G06F16/953(2019.01)权利要求书2页说明书10页附图5页(54)发明名称文本内容增强识别方法、装置、设备以及存储介质(57)摘要本申请公开了一种文本内容增强识别方法、装置、设备以及存储介质,涉及数据处理技术领域,尤其涉及大数据和人工智能技术领域。具体实现方案为:获取用户生成内容;基于多种类变体词词表和目标内容文本库,对用户生成内容进行识别增强处理,以得到识别增强处理结果;响应于识别增强处理结果为用户生成内容的变体文本存在于目标内容文本库,确定用户生成内容中包含目标内容。本申请的技术方案可以基于多种类变体词词表和目标内容文本库,对获取用户生成内容进行识别增强处理,以确定用户生成内容中是否包含目标内容,从而提高对包含目标内容的文本内容的识别能力。CN115033660ACN115033660A权利要求书1/2页1.一种文本内容增强识别方法,包括:获取用户生成内容;基于多种类变体词词表和目标内容文本库,对所述用户生成内容进行识别增强处理,以得到识别增强处理结果;响应于所述识别增强处理结果为所述用户生成内容的变体文本存在于所述目标内容文本库,确定所述用户生成内容中包含目标内容。2.如权利要求1所述的方法,其中,所述基于多种类变体词词表和目标内容文本库,对所述用户生成内容进行识别增强处理,以得到识别增强处理结果,包括:基于多种类变体词词表对所述用户生成内容进行变体转换,以得到所述用户生成内容的变体文本;采用文本匹配方式和/或正则表达式,检测所述用户生成内容的变体文本是否存在于所述目标内容文本库,并根据检测结果确定识别增强处理结果。3.如权利要求2所述的方法,其中,所述基于多种类变体词词表对所述用户生成内容进行变体转换,以得到所述用户生成内容的变体文本,包括:基于所述多种类变体词词表之中包含的不同种类变体字符与常规字符间的映射关系,从所述多种类变体词词表中找出与所述用户生成内容中的字符存在映射关系的常规字符;将所述用户生成内容中存在所述映射关系的字符替换成对应的常规字符,以得到所述用户生成内容的变体文本。4.如权利要求1至3中任一项所述的方法,还包括:响应于所述识别增强处理结果为所述用户生成内容的变体文本未存在于所述目标内容文本库,基于预设的文本识别模型对所述用户生成内容的变体文本进行预测,以确定所述用户生成内容中是否包含目标内容。5.如权利要求4所述的方法,还包括:获取经过所述文本识别模型预测的目标用户生成内容;对所述目标用户生成内容进行验证,以确定所述文本识别模型对所述目标用户生成内容的预测结果是否正确;响应于所述文本识别模型对所述目标用户生成内容的预测结果不正确,分析所述目标用户生成内容,并根据分析结果扩展所述多种类变体词词表和/或目标内容文本库。6.一种文本内容增强识别装置,包括:第一获取模块,用于获取用户生成内容;第一处理模块,用于基于多种类变体词词表和目标内容文本库,对所述用户生成内容进行识别增强处理,以得到识别增强处理结果;第二处理模块,用于响应于所述识别增强处理结果为所述用户生成内容的变体文本存在于所述目标内容文本库,确定所述用户生成内容中包含目标内容。7.如权利要求6所述的装置,其中,所述第一处理模块具体用于:基于多种类变体词词表对所述用户生成内容进行变体转换,以得到所述用户生成内容的变体文本;采用文本匹配方式和/或正则表达式,检测所述用户生成内容的变体文本是否存在于所述目标内容文本库,并根据检测结果确定识别增强处理结果。2CN115033660A权利要求书2/2页8.如权利要求7所述的装置,其中,所述第一处理模块具体用于:基于所述多种类变体词词表之中包含的不同种类变体字符与常规字符间的映射关系,从所述多种类变体词词表中找出与所述用户生成内容中的字符存在映射关系的常规字符;将所述用户生成内容中存在所述映射关系的字符替换成对应的常规字符,以得到所述用户生成内容的变体文本。9.如权利要求6至8中任一项所述的装置,还包括:第三处理模块,用于响应于所述识别增强处理结果为所