预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761193A(43)申请公布日2021.12.07(21)申请号202110550834.X(22)申请日2021.05.18(71)申请人腾讯科技(深圳)有限公司地址518000广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人秦天柱罗家润刘楚蓉谢宗兴(74)专利代理机构广州华进联合专利商标代理有限公司44224代理人黄晶晶(51)Int.Cl.G06F16/35(2019.01)G06F16/33(2019.01)G06K9/62(2006.01)G06N20/00(2019.01)权利要求书2页说明书12页附图6页(54)发明名称日志分类方法、装置、计算机设备和存储介质(57)摘要本申请涉及人工智能中的自然语言处理和机器学习领域,尤其涉及一种日志分类方法、装置、计算机设备和存储介质。所述方法包括:获取待分类日志,确定构成待分类日志的目标词语以及各目标词语的词频;根据通过非监督学习方式得到的主题模型所确定的主题‑词语概率分布,获得各目标词语在各目标主题中的概率,主题‑词语概率分布中包括各目标主题下的词语概率分布;根据各目标词语在各目标主题中的概率、以及各目标词语的词频,获得待分类日志对应各目标主题的概率;根据待分类日志对应各目标主题的概率选取相应的目标主题,确定为待分类日志的所属类别。采用本方法能够对上报日志进行自动分类以便快速找到问题来源。CN113761193ACN113761193A权利要求书1/2页1.一种日志分类方法,其特征在于,所述方法包括:获取待分类日志,确定构成所述待分类日志的目标词语以及各所述目标词语在所述待分类日志中的词频;根据主题模型所确定的主题‑词语概率分布,获得各所述目标词语在各目标主题中的概率,所述主题‑词语概率分布中包括各所述目标主题下的词语概率分布;根据各所述目标词语在各所述目标主题中的概率、以及各所述目标词语在所述待分类日志中的词频,获得所述待分类日志对应各所述目标主题的概率;根据所述待分类日志对应各所述目标主题的概率选取相应的目标主题,确定为所述待分类日志的所属类别。2.根据权利要求1所述的方法,其特征在于,所述主题‑词语概率分布的确定方法包括:基于不同的预设主题数量,构建各所述预设主题数量对应的主题模型;利用多个样本日志对各所述主题模型进行训练,获得各所述主题模型的模型结果,所述模型结果包括第一概率分布和第二概率分布,所述第一概率分布包括各样本日志下的主题概率分布,所述第二概率分布包括各主题下的词语概率分布;对各所述主题模型对应的模型结果进行验证,获得各所述主题模型的困惑度;根据各所述主题模型的困惑度,从所述预设主题数量中确定最终主题数量,根据所述最终主题数量对应的主题模型的模型结果,确定所述主题‑词语概率分布。3.根据权利要求2所述的方法,其特征在于,对于任一所述预设主题数量对应的主题模型,所述利用多个样本日志对所述主题模型进行训练,获得所述主题模型的模型结果,包括:为所述多个样本日志中的每个词语随机分配一个主题,遍历所述多个样本日志的所有词语,获得所述主题模型的各参数的初始值,所述参数包括每个样本日志中每个主题出现的次数、每个样本日志中主题总数、每个主题中每个词语出现的次数、以及每个主题中词语总数;基于所述主题模型的各参数的初始值,对所述主题模型进行当前轮次的迭代训练,获得当前轮次中各参数的更新值;当迭代训练的迭代次数不满足迭代结束条件时,将当前轮次中各参数的更新值作为下一轮次中各参数的初始值,返回执行所述基于所述主题模型的各参数的初始值,对所述主题模型进行当前轮次的迭代训练,获得当前轮次中各参数的更新值的步骤,直至迭代训练的迭代次数满足迭代结束条件,根据最终获得的各参数的更新值确定所述主题模型的模型结果;其中,在每个轮次的迭代训练中,执行如下操作:将当前轮次中各参数的初始值均减一,获得当前轮次中各参数的中间值,根据当前轮次中各参数的中间值以及狄利克雷分布参数,计算每个词语在每个主题中的概率,根据每个词语在每个主题中的概率,重新为每个词语分配主题,遍历所述多个样本日志的所有词语,获得当前轮次中各参数的更新值。4.根据权利要求3所述的方法,其特征在于,所述根据最终获得的各参数的更新值确定所述主题模型的模型结果,包括:对于所述预设主题中每一主题,根据所述主题中词语总数、所述主题中每个词语出现的次数、以及狄利克雷分布参数,获得所述主题下的词语概率分布;对于所述多个样日志中每一样本日志,根据所述样本日志中主题总数、所述样本日志2CN113761193A权利要求书2/2页中每个主题出现的次数、以及狄利克雷分布参数,获得所述样本日志下的主题概率分布。5.根据权利要求2所述的方法,其特征在于,所述根