预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111078877A(43)申请公布日2020.04.28(21)申请号201911235575.0(22)申请日2019.12.05(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人马良庄(74)专利代理机构北京博思佳知识产权代理有限公司11415代理人周嗣勇(51)Int.Cl.G06F16/35(2019.01)权利要求书2页说明书8页附图4页(54)发明名称数据处理、文本分类模型的训练、文本分类方法和装置(57)摘要本说明书实施例提供一种数据处理方法和装置、文本分类模型的训练方法和装置,以及文本分类方法和装置,将第一待处理文本信息划分为N组,根据其中N-1组训练文本信息训练第一文本分类模型,并通过所述第一文本分类模型对剩余第一待处理文本信息进行预测,获取所述剩余第一待处理文本信息的预测类别,根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤,以从所述剩余第一待处理文本信息中获取训练文本信息。通过本说明书实施例方案,能够从大量的第一待处理文本信息中自动过滤掉低质量数据,得到高质量的训练数据,通过该训练数据来训练文本分类模型,能够提高模型的分类准确性。CN111078877ACN111078877A权利要求书1/2页1.一种数据处理方法,所述方法包括:将第一待处理文本信息划分为N组,N为正整数;采用N-1组第一待处理文本信息训练第一文本分类模型;通过所述第一文本分类模型对剩余第一待处理文本信息的类别进行预测,获取所述剩余第一待处理文本信息的预测类别,根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤,以从所述剩余第一待处理文本信息中获取训练文本信息。2.根据权利要求1所述的方法,在根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤之后,所述方法还包括:重新选择N-1组第一待处理文本信息,并返回采用N-1组第一待处理文本信息训练第一文本分类模型的步骤,直到N组第一待处理文本信息均完成过滤。3.根据权利要求1所述的方法,所述第一待处理文本信息被划分为数据量相等的N组。4.根据权利要求1所述的方法,根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤的步骤包括:确定所述剩余第一待处理文本信息的预测类别与真实类别的相似度;若所述剩余第一待处理文本信息的相似度小于预设的相似度阈值,将所述剩余第一待处理文本信息过滤掉。5.根据权利要求4所述的方法,确定所述剩余第一待处理文本信息的预测类别与真实类别的相似度的步骤包括:判断所述第一文本分类模型对所述剩余第一待处理文本信息的预测类别是否在所述剩余第一待处理文本信息的置信度最大的前M种真实类别中;若不在,判定所述剩余第一待处理文本信息的预测类别与真实类别的相似度小于所述相似度阈值。6.一种文本分类模型的训练方法,所述方法还包括:获取训练文本信息及其真实类别;根据所述训练文本信息及其真实类别对第二文本分类模型进行训练;其中,所述训练文本信息基于权利要求1至5任意一项所述的数据处理方法获取。7.一种文本分类方法,所述方法包括:获取第二待处理文本信息;通过预先训练的第二文本分类模型对所述第二待处理文本信息进行分类,获取所述第二待处理文本信息的类别;其中,所述第二文本分类模型基于权利要求6所述的文本分类模型的训练方法训练得到。8.一种数据处理装置,所述装置包括:划分模块,用于将第一待处理文本信息划分为N组,N为正整数;第一训练模块,用于采用N-1组第一待处理文本信息训练第一文本分类模型;过滤模块,用于通过所述第一文本分类模型对剩余第一待处理文本信息的类别进行预测,获取所述剩余第一待处理文本信息的预测类别,根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤,以从所述剩余第一待处理2CN111078877A权利要求书2/2页文本信息中获取训练文本信息。9.一种文本分类模型的训练装置,所述装置还包括:第一获取模块,用于获取训练文本信息及其真实类别;第二训练模块,用于根据所述训练文本信息及其真实类别对第二文本分类模型进行训练;其中,所述训练文本信息基于权利要求8所述的数据处理装置获取。10.一种文本分类装置,所述装置包括:第二获取模块,用于获取第二待处理文本信息;分类模块,用于通过预先训练的第二文本分类模型对所述第二待处理文本信息进行分类,获取所述第二待处理文本信息的类别;其中,所述第二文本分类模型基于权利要求9所述的文本分类模型的训练装置训练得到。11.一种计算机可读存储介质,其