预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114138976A(43)申请公布日2022.03.04(21)申请号202111493424.2(22)申请日2021.12.08(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人武思文许林丰许海洋许韩晨玺张巨岩杨德将(74)专利代理机构北京市铸成律师事务所11313代理人陈晓欣包莉莉(51)Int.Cl.G06F16/35(2019.01)G06F40/289(2020.01)G06K9/62(2022.01)G06N20/00(2019.01)权利要求书3页说明书10页附图5页(54)发明名称数据处理与模型训练方法、装置、电子设备和存储介质(57)摘要本公开提供了一种数据处理与模型训练方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及深度学习技术领域。具体实现方案为:对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理,得到所述每个文本数据的置信度;基于所述每个文本数据的置信度,得到所述目标类别对应的置信度统计数据;基于所述目标类别对应的置信度统计数据,得到所述目标用户的类别特征。利用本公开实施例,可以通过用户的文本数据属于目标类型的置信度来确定用户的类别特征,可以准确地挖掘用户的意图。CN114138976ACN114138976A权利要求书1/3页1.一种数据处理方法,包括:对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理,得到所述每个文本数据的置信度;基于所述每个文本数据的置信度,得到所述目标类别对应的置信度统计数据;基于所述目标类别对应的置信度统计数据,得到所述目标用户的类别特征。2.根据权利要求1所述的方法,其中,所述对目标用户的文本数据集合中的每个文本数据进行针对目标类别的二分类处理,得到所述每个文本数据的置信度,包括:对目标用户的第一文本数据集合中的每个文本数据进行分词;基于所述每个文本数据中的每个词语的正样本率,确定所述每个文本数据中的每个词语的权重;基于所述每个文本数据中的每个词语的语义和权重对所述每个文本数据进行针对目标类别的二分类处理,确定所述每个文本数据属于所述目标类别的置信度。3.根据权利要求2所述的方法,其中,所述基于所述每个文本数据中的每个词语的语义和权重对所述每个文本数据进行针对目标类别的二分类处理,确定所述每个文本数据属于所述目标类别的置信度,包括:基于所述每个文本数据中的每个词语的语义和权重,将所述每个文本数据转换成文本句向量;将所述每个文本数据对应的文本句向量输入到目标类别对应的第一分类模型中对所述每个文本数据进行针对目标类别的二分类处理,得到所述第一分类模型输出的所述每个文本数据属于所述目标类别的置信度。4.根据权利要求1至3任一项所述的方法,其中,所述置信度统计数据包括:在所述第一文本数据集合中,文本数据的置信度的最大值、最小值、均值和方差值,以及置信度大于设定阈值的文本数据的数量。5.一种模型训练方法,包括:对第二文本数据集合中的每个文本数据进行类别标注,得到所述每个文本数据的类别信息;基于所述每个文本数据和所述每个文本数据的类别信息,对至少一个类别中的每个类别对应的第二分类模型分别进行训练,得到所述每个类别对应的第一分类模型;其中,所述第一分类模型用于对文本数据进行针对所述分类模型对应的类别的二分类处理,得到所述文本数据的置信度。6.根据权利要求5所述的方法,其中,所述对第二文本数据集合中的每个文本数据进行类别标注,得到所述每个文本数据的类别信息,包括:对第二文本数据集合中的第一部分文本数据进行类别标注,得到所述第一部分文本数据的类别信息;基于所述第一部分文本数据的类别信息,以及所述第一部分文本数据与所述第二文本数据集合中的第二部分文本数据之间的距离,对所述第二部分文本数据进行标注,得到所述第二部分文本数据的类别信息。7.根据权利要求5所述的方法,其中,所述基于所述每个文本数据和所述每个文本数据的类别信息,对至少一个类别中的每个类别对应的第二分类模型分别进行训练,包括:2CN114138976A权利要求书2/3页将所述第二文本数据集合中的每个文本数据转换成文本句向量;基于所述文本句向量和所述每个文本数据的类别信息,对至少一个类别中的每个类别对应的第二分类模型分别进行训练。8.一种数据处理装置,包括:二分类模块,用于对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理,得到所述每个文本数据的置信度;置信度统计模块,用于基于所述每个文本数据的置信度,得到所述目标类别对应的置信度统计数据;用户特征确定模块,用于基于所述目标类别对应的置信度统计数据,得到所述目标用户的类别特征