预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112308453A(43)申请公布日2021.02.02(21)申请号202011301542.4(22)申请日2020.11.19(71)申请人上海优扬新媒信息技术有限公司地址201800上海市嘉定区汇源路55号8幢3层307室(72)发明人刘宏剑杨青(74)专利代理机构北京集佳知识产权代理有限公司11227代理人尹秀(51)Int.Cl.G06Q10/06(2012.01)G06F40/279(2020.01)G06F40/242(2020.01)G06K9/62(2006.01)权利要求书2页说明书9页附图4页(54)发明名称风险识别模型训练方法、用户风险识别方法及相关装置(57)摘要本发明公开了一种风险识别模型训练方法、用户风险识别方法及相关装置,该训练方法包括:对初始样本中的搜索日志进行去重处理,利用关键词典对各个单词进行排序,关键词字典是依据单词的重要程度设定的;将排序结果按照预设长度截取为至少一个输入文本;将至少一个输入文本作为训练样本,对风险识别模型进行训练,得到目标风险识别模型。上述方法,训练样本是对搜索日志经过去重,将得到各个单词依据关键词字典进行排序,并截取为预设长度得到的,相较于接拼接方式缩短了训练样本的长度,提高了训练效率,即便进行了截取,由于训练样本是基于关键词字典进行排序的,也会保留了重要程度较高的分词,同时也保证了训练的准确率。CN112308453ACN112308453A权利要求书1/2页1.一种风险识别模型训练方法,其特征在于,包括:获取初始样本;对所述初始样本中的搜索日志进行去重处理,得到各个单词;利用关键词典对所述各个单词进行排序,得到排序结果,所述关键词字典是预先建立的,包含有多个单词,且,所述单词的顺序依据单词的重要程度进行设定;将所述排序结果按照预设长度截取为至少一个输入文本;将所述至少一个输入文本作为训练样本,对风险识别模型进行训练,得到目标风险识别模型,其中,所述风险识别模型基于Embedding层和Transformer结构进行构建。2.根据权利要求1所述的方法,其特征在于,关键词字典的建立过程包括:将每一个用户的全部搜索日志拼接,得到拼接文本;对所述拼接文本进行分词,得到各个单词;计算每一个单词对应的高低风险区分度和出现的频数,将所述高低风险区分度和所述频数的乘积作为该分词的重要性值;对所述各个单词基于重要性值进行排序,得到所述关键词字典。3.根据权利要求2所述的方法,其特征在于,计算每一个单词对应的高低风险区分度,包括:统计搜索过该单词的各个用户的高风险用户的比例H和低风险用户的比例L;获取全部用户中高风险用户的比例H’和低风险用户的比例L’,基于预设公式计算高低风险区分度,其中,R表示高低风险区分度。4.根据权利要求1所述的方法,其特征在于,基于Embedding层和Transformer结构构建风险识别模型,包括:基于预设的训练语料对文本预测模型进行训练,得到目标文本预测模型,其中,所述目标文本训练模型包括:所述Embedding层和所述Transformer结构;当训练完成,获取所述Embedding层和所述Transformer结构;添加风险识别层、基于所述Embedding层、所述Transformer结构和所述风险识别层的顺序构建所述风险识别模型。5.根据权利要求1所述的方法,其特征在于,还包括:获取所述排序结果的长度;在所述长度小于所述预设长度的情况下,将所述排序结果中添加空白向将其补充为所述预设长度。6.一种用户风险识别方法,其特征在于,包括:在接收到对当前用户的风险识别请求的情况下,调用目标风险识别模型,其中,所述目标风险识别模型基于权利要求1-5任意一项所述训练方法进行训练得到;获取所述当前用户的当前搜索日志,对所述当前搜索日志进行去重处理,得到各个当前单词;将所述各个当前单词依据关键词字典进行排序,得到当前排序结果;将所述排序结果按照预设长度截取为当前输入文本;将所述当前输入文本传递给所述目标风险识别模型进行风险识别。2CN112308453A权利要求书2/2页7.一种风险识别模型训练装置,其特征在于,包括:初始样本获取模块,用于获取初始样本;第一去重模块,用于对所述初始样本中的搜索日志进行去重处理,得到各个单词;第一排序模块,用于利用关键词典对所述各个单词进行排序,得到排序结果,所述关键词字典是预先建立的,包含有多个单词,且,所述单词的顺序依据单词的重要程度进行设定;第一截取模块,用于将所述排序结果按照预设长度截取为至少一个输入文本;训练模块,用于将所述至少一个输入文本作为训练样本,对风险识别模型进行训练,得到目标风险识别模型,其中,所述风险识别模型基于Embeddi