预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113988061A(43)申请公布日2022.01.28(21)申请号202111231729.6(22)申请日2021.10.22(71)申请人平安国际智慧城市科技股份有限公司地址518000广东省深圳市前海深港合作区妈湾兴海大道3048号前海自贸大厦1-34层(72)发明人莫智文(74)专利代理机构深圳中一联合知识产权代理有限公司44414代理人杨志强(51)Int.Cl.G06F40/279(2020.01)G06F40/216(2020.01)G06N20/00(2019.01)权利要求书2页说明书15页附图4页(54)发明名称基于深度学习的敏感词检测方法、装置、设备及存储介质(57)摘要本申请适用于人工智能技术领域,提供了基于深度学习的敏感词检测方法、装置、设备及存储介质。包括:获取待检测文本;通过敏感词检测模型提取待检测文本对应的字形组合特征、字形编码特征以及拼音编码特征;根据预设的敏感词库、字形组合特征、字形编码特征以及拼音编码特征,确定待检测文本对应的多个初始敏感词;提取每个初始敏感词的词义特征;提取待检测文本的语义特征;根据语义特征和每个初始敏感词的词义特征,确定待检测文本对应的目标敏感词。上述方案中,提取汉字在字形和发音两方面的特征,融合上下文信息,使最终确定的敏感词更为准确。还提取字形组合特征,能够更好地检测出变形词对应的敏感词,进一步提升了检测敏感词的准确率。CN113988061ACN113988061A权利要求书1/2页1.一种基于深度学习的敏感词检测方法,其特征在于,包括:获取待检测文本;通过已训练的敏感词检测模型遍历所述待检测文本对应的每个字,并在遍历过程中检测到所述待检测文本中的字能组成新字时,根据所述新字确定所述待检测文本对应的字形组合特征;通过所述敏感词检测模型对所述待检测文本中的每个字进行字形编码,得到所述待检测文本对应的字形编码特征,所述字形编码特征包括汉字字形编码特征和四角号码编码特征;通过所述敏感词检测模型对所述待检测文本中的每个字进行拼音编码,得到所述待检测文本对应的拼音编码特征,所述拼音编码特征包括汉字拼音编码特征和部首拼音编码特征;根据预设的敏感词库、所述字形组合特征、所述字形编码特征以及所述拼音编码特征,确定所述待检测文本对应的多个初始敏感词;采用所述敏感词检测模型提取每个所述初始敏感词的词义特征;通过所述敏感词检测模型提取所述待检测文本的语义特征;根据所述语义特征和每个所述初始敏感词的词义特征,确定所述待检测文本对应的目标敏感词。2.如权利要求1所述的敏感词检测方法,其特征在于,所述初始敏感词包括第一敏感词、第二敏感词、第三敏感词以及第四敏感词;所述根据预设的敏感词库、所述字形组合特征、所述字形编码特征以及所述拼音编码特征,确定所述待检测文本对应的多个初始敏感词,包括:基于所述敏感词库,确定所述待检测文本对应的第一敏感词;根据所述敏感词库和所述字形组合特征,确定所述待检测文本对应的第二敏感词;基于所述敏感词库和所述字形编码特征,确定所述待检测文本对应的第三敏感词;根据所述敏感词库和所述拼音编码特征,确定所述待检测文本对应的第四敏感词。3.如权利要求2所述的敏感词检测方法,其特征在于,所述基于所述敏感词库,确定所述待检测文本对应的第一敏感词,包括:对所述待检测文本进行分词处理,得到多个分词,所述分词包括词语和单字;当在所述敏感词库中查询到任一所述分词时,将任一所述分词确定为所述第一敏感词。4.如权利要求2所述的敏感词检测方法,其特征在于,所述基于所述敏感词库和所述字形编码特征,确定所述待检测文本对应的第三敏感词,包括:在所述敏感词库中查询与所述字形编码特征匹配的敏感词;将查询到的与所述字形编码特征匹配的敏感词,确定为所述第三敏感词。5.如权利要求2所述的敏感词检测方法,其特征在于,所述根据所述敏感词库和所述拼音编码特征,确定所述待检测文本对应的第四敏感词,包括:在所述敏感词库中查询与所述拼音编码特征匹配的敏感词;将查询到的与所述拼音编码特征匹配的敏感词,确定为所述第四敏感词。6.如权利要求1所述的敏感词检测方法,其特征在于,所述获取待检测文本之前,所述2CN113988061A权利要求书2/2页敏感词检测方法还包括:获取预设的多个敏感词;对每个所述敏感词进行字形编码,得到每个所述敏感词对应的字形编码敏感词;对每个所述敏感词进行拼音编码,得到每个所述敏感词对应的拼音编码敏感词;基于每个所述敏感词、每个所述字形编码敏感词以及每个所述拼音编码敏感词,构建所述敏感词库。7.如权利要求1至6任一项所述的敏感词检测方法,其特征在于,所述根据所述语义特征和每个所述初始敏感词的词义特征,确定所述待检测文本对应的