预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113988176A(43)申请公布日2022.01.28(21)申请号202111253331.2(22)申请日2021.10.27(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人段茂涛丁烽祥李建彬刘铭罗梁(74)专利代理机构济南信达专利事务所有限公司37100代理人李世喆(51)Int.Cl.G06K9/62(2022.01)G06F21/62(2013.01)权利要求书2页说明书11页附图4页(54)发明名称样本标注方法和装置(57)摘要本说明书实施例提供了一种样本标注方法和装置,方法包括:获取第一数量的敏感样本;将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注敏感类型;按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。本说明书实施例能够高效地对样本进行敏感类型的标注。CN113988176ACN113988176A权利要求书1/2页1.一种样本标注方法,包括:获取第一数量的敏感样本;将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注敏感类型;按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;判断每一个聚类是否满足收敛条件,如果满足,则利用该聚类中包括的敏感样本的敏感类型对该聚类中包括的待处理样本进行标注。2.根据权利要求1所述的方法,其中,所述第二数量大于所述第一数量。3.根据权利要求1所述的方法,其中,所述判断每一个聚类是否满足收敛条件,包括:对每一个聚类确定对应的敏感类型数量;根据每一个聚类对应的敏感类型数量和所述敏感类型的纯度,判断该聚类是否满足收敛条件,所述敏感类型的纯度为在一个聚类中所述敏感类型的敏感样本的数量占比。4.根据权利要求3所述的方法,其中,所述根据每一个聚类对应的敏感类型数量和所述敏感类型的纯度,判断该聚类是否满足收敛条件,包括:若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度大于等于预设纯度值,则该聚类满足收敛条件;和/或,若一个聚类对应的敏感类型数量为1,且该聚类中所述敏感类型的纯度小于预设纯度值,则该聚类未收敛,并返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;和/或,若一个聚类对应的敏感类型数量大于1,且该聚类中包含的各个敏感类型的纯度均小于预设纯度值,则该聚类未收敛,对聚类处理中使用的预设聚类参数进行调整,并利用该调整后的预设聚类参数返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤;和/或,若一个聚类对应的敏感类型数量大于1,且该聚类中包含纯度大于等于预设纯度值的敏感类型,则该聚类未收敛,并返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤。5.根据权利要求1至4中任一所述的方法,其中,所述按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类,包括:根据所述敏感类型的上位类型对混合后的各个样本进行聚类处理,得到至少一个第一聚类;每一个上位类型中包括至少一个所述敏感类型;根据所述敏感类型对每一个第一聚类中的各个样本进行聚类处理,得到该第一聚类下的至少一个第二聚类;则,判断每一个聚类是否满足收敛条件,包括:判断每一个第二聚类是否满足收敛条件。6.根据权利要求1至4中任一所述的方法,其中,所述第一数量的敏感样本的敏感类型为预设的第一敏感类型;在所述得到至少一个聚类之后,还包括:在不满足收敛条件的各聚类中检测是否包括第二敏感类型的样本,所述第二敏感类型2CN113988176A权利要求书2/2页为新增的敏感类型;若是,则在不满足收敛条件的各聚类中选取第三数量的第二敏感类型的样本进行人工标注;按照所述第一敏感类型和所述第二敏感类型对不满足收敛条件的各个聚类中的样本重新进行聚类处理,并对得到的聚类进行标注。7.根据权利要求1至4中任一所述的方法,其中,所述方法还包括:将满足收敛条件的聚类在敏感类型标注之后从混合后的各个样本中移出;判断当前剩余样本总数量与初始样本总数量之比是否大于预设阈值,若是,则返回执行所述按照敏感类型对混合后的各个样本进行聚类的步骤,否则结束本方法。8.一种样本标注装置,包括:样本获取模块,用于获取第一数量的敏感样本;样本混合模块,用于将第一数量的敏感样本与第二数量的待处理样本进行混合;其中,所述敏感样本已被标注出敏感类型,所述待处理样本未被标注敏感类型;聚类处理模块,用于按照敏感类型对混合后的各个样本进行聚类,得到至少一个聚类;样