预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114328936A(43)申请公布日2022.04.12(21)申请号202210191386.3(22)申请日2022.03.01(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人林昊(74)专利代理机构济南信达专利事务所有限公司37100代理人李世喆(51)Int.Cl.G06F16/35(2019.01)G06F40/242(2020.01)G06F40/30(2020.01)权利要求书2页说明书11页附图4页(54)发明名称建立分类模型的方法和装置(57)摘要本说明书实施例提供了一种建立分类模型的方法及装置。其中方法包括:首先获取待分类数据样本,并获取所述待分类数据样本对应的分类标签样本;然后将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,所述训练集和所述回测集均包含多个训练样本;利用所述训练集训练分类模型;从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本;再获取对选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构成新的训练样本加入所述训练集,转至利用所述训练集训练分类模型的步骤,直至达到预设的结束条件。CN114328936ACN114328936A权利要求书1/2页1.建立分类模型的方法,包括:获取待分类数据样本,并获取所述待分类数据样本对应的分类标签样本;将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,所述训练集和所述回测集均包含多个训练样本;利用所述训练集训练分类模型;从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本;获取对所选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本;将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构建新的训练样本加入所述训练集,转至利用所述训练集训练分类模型的步骤,直至达到预设的结束条件。2.根据权利要求1所述的方法,其中,所述获取所述待分类数据样本对应的分类标签样本包括:将所述待分类数据样本与预设的词典或语义表达模板进行匹配;依据匹配结果确定所述待分类数据样本对应的分类标签;基于确定的分类标签得到所述待分类数据样本对应的分类标签样本。3.根据权利要求1所述的方法,其中,从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本包括:利用训练得到的分类模型对所述回测集中的待分类数据样本进行分类,得到对待分类数据样本的分类结果;针对所述回测集中的待分类数据样本,基于该待分类数据样本的分类结果与该待分类数据样本对应的分类标签样本的差异,确定该待分类数据样本所在的训练样本对所述分类模型的效果增益,从所述回测集中选择效果增益满足预设要求的训练样本。4.根据权利要求3所述的方法,其中,所述基于该待分类数据样本的分类结果与该待分类数据样本对应的分类标签样本的差异确定该待分类数据样本所在的训练样本对所述分类模型的效果增益,从所述回测集中选择效果增益满足预设要求的训练样本包括:确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度;从所述回测集中选择置信度小于或等于预设第一阈值的待分类数据样本所在的训练样本,或者,从所述回测集中选择置信度最低的N个待分类数据样本所在的训练样本,所述N为预设的正整数。5.根据权利要求1所述的方法,其中,所述预设的结束条件包括以下至少一种:所述分类模型的准确率达到预设准确率阈值;循环执行训练分类模型的次数超过预设的循环次数阈值;所述分类模型的分类效果收敛。6.根据权利要求1至5中任一项所述的方法,其中,所述待分类数据样本包括事件相关文本,所述分类模型包括事件抽取模型,所述分类标签包括事件信息标签;所述事件抽取模型用以从待分类数据中抽取事件信息。7.根据权利要求6所述的方法,该方法还包括:2CN114328936A权利要求书2/2页确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度;将置信度大于或等于预设第二阈值的分类标签样本加入数据库,用以构建基于事件的知识图谱。8.建立分类模型的装置,包括:数据获取单元,被配置为获取待分类数据样本,并获取所述待分类数据样本对应的分类标签样本;样本构建单元,被配置为将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,所述训练集和所述回测集均包含多个训练样本;模型训练单元,被配置为利用所述训练集训练分类模型;结束判断单元,被配置为所述模型训练单元训练得到分类模型后,判断是否达到预设的结束条件;样本选择单元,被配置为在所