预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113722422A(43)申请公布日2021.11.30(21)申请号202110399762.3(22)申请日2021.04.14(71)申请人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人牟文晶(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人祝亚男(51)Int.Cl.G06F16/33(2019.01)G06F16/9532(2019.01)G06F16/9535(2019.01)G06F40/30(2020.01)G06N20/00(2019.01)权利要求书2页说明书14页附图6页(54)发明名称模型训练方法、文本标签生成方法、装置、设备及介质(57)摘要本申请提供了一种模型训练方法、文本标签生成、装置、设备及介质,属于自然语言处理领域。所述方法包括:获取搜索行为信息;对所述搜索行为信息进行数据清洗,得到训练数据;以所述训练数据中的搜索结果数据为输入信息,所述搜索输入数据为监督信息,训练得到目标模型。通过获取搜索过程中的输入行为和点击行为,将输入行为对应的搜索输入数据以及点击行为对应的搜索结果数据作为训练数据,得到不需要分词即可提取文本的关键信息的目标模型,从而基于该目标模型获取文本标签的准确率更高,从而能够基于该文本标签更好的对文本进行推荐。CN113722422ACN113722422A权利要求书1/2页1.一种模型训练方法,其特征在于,所述方法包括:获取搜索行为信息,所述搜索行为信息用于表示搜索过程中与输入行为对应的搜索输入数据以及与点击行为对应的搜索结果数据;对所述搜索行为信息进行数据清洗,得到训练数据,所述训练数据包括清洗后的至少一条搜索输入数据和每条搜索输入数据对应的至少一条搜索结果数据;以所述训练数据中的搜索结果数据为输入信息,所述搜索输入数据为监督信息,训练得到目标模型,所述目标模型用于提取文本的文本标签。2.根据权利要求1所述的方法,其特征在于,所述获取搜索行为信息,包括:响应于第一输入行为,获取与所述第一输入行为对应的第一输入数据;响应于对展示的搜索结果的第一点击行为,获取与所述第一点击行为对应的至少一个第一结果数据;响应于第二输入行为,将所述第一输入行为、所述第一输入数据、所述第一点击行为以及所述至少一个第一结果数据,获取为一条搜索行为信息。3.根据权利要求1所述的方法,其特征在于,所述对所述搜索行为信息进行数据清洗的方式,包括下述至少一项:响应于任一条搜索行为信息中的搜索输入数据不满足词性条件,移除所述任一条搜索行为信息,所述词性条件用于指示至少一种词性;响应于任一条搜索行为信息中的搜索输入数据包括第一词语库中的任一词语,移除所述任一条搜索行为信息,所述第一词语库用于存储至少一个词语;响应于任一条搜索行为信息中的搜索输入数据的语义不完整,移除所述任一条搜索行为信息;响应于任一条搜索行为信息中的搜索输入数据与搜索结果数据之间的关联度小于关联度阈值,移除所述任一条搜索行为信息。4.根据权利要求1所述的方法,其特征在于,所述以所述训练数据中的搜索结果数据为输入信息,所述搜索输入数据为监督信息,训练得到目标模型,包括:对于所述训练数据中的任一搜索结果数据,使用至少一个目标符号分别替换所述任一搜索结果数据中属于第二词语库的至少一个词语,得到所述任一搜索结果数据对应的替换结果数据,一个目标符号用于代表一个词语;基于本次迭代过程对应的第一模型对所述替换结果数据进行处理,得到包括所述至少一个目标符号的第一输出结果;将所述第一输出结果中的目标符号替换为对应的词语,得到第二输出结果;基于所述第二输出结果和所述任一搜索结果数据对应的搜索输入数据之间的差异,调整所述第一模型的参数,得到下次迭代过程对应的第二模型;基于所述第二模型进行迭代,直到得到训练完毕的所述目标模型。5.一种文本标签生成方法,其特征在于,所述方法包括:获取待推荐的目标文本;基于目标模型对所述目标文本进行处理,得到目标文本标签;其中,所述目标模型基于权利要求1至4任一项训练得到。6.根据权利要求5所述的方法,其特征在于,所述基于目标模型对所述目标文本进行处2CN113722422A权利要求书2/2页理,得到目标文本标签,包括:使用至少一个目标符号分别替换所述目标文本中属于第二词语库的词语,得到替换文本;基于所述目标模型对所述替换文本进行处理,得到包括所述至少一个目标符号的替换文本标签;将所述替换文本标签中的目标符号替换为对应的词语,得到所述目标文本标签。7.一种模型训练装置,其特征在于,所述装置包括:信息获取模块,用于获取搜索行为信息,所述搜索行为信息用于表示搜索过程中与输入行为对应的搜索输入