预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110717529A(43)申请公布日2020.01.21(21)申请号201910911876.4(22)申请日2019.09.25(71)申请人南京旷云科技有限公司地址210046江苏省南京市经济技术开发区兴智路兴智科技园A栋15层申请人徐州旷视数据科技有限公司北京旷视科技有限公司(72)发明人周博言崔权宋仁杰赵博睿陈钊民谢烟平魏秀参(74)专利代理机构北京钲霖知识产权代理有限公司11722代理人田飞飞熊玉兰(51)Int.Cl.G06K9/62(2006.01)权利要求书2页说明书9页附图7页(54)发明名称一种数据采样方法及装置(57)摘要本发明涉及图像识别技术领域,解决目前解决训练数据集存在长尾问题的数据采样方法,从网络训练开始至结束,每一次网络训练过程中,训练样本相同,进而导致网络对特征学习不全面的问题,本发明提供一种数据采样方法及装置,该方法包括:获取网络当前迭代轮次;基于网络当前迭代轮次及每类样本的样本数,更新每类样本的样本权重,其中,随着所述网络当前迭代轮次的增加,尾部类样本权重逐步增加;根据更新后的每类样本的样本权重,采样符合预设条件的样本,作为目标样本。通过网络迭代轮次的增加,训练数据集中的样本权重均增加,但是尾部类样本权重增加幅度大,尾部类样本被选择为训练样本的概率增加,可有效缓解从长尾问题,网络特征学习效果好。CN110717529ACN110717529A权利要求书1/2页1.一种数据采样方法,其中,所述方法包括:获取网络当前迭代轮次;基于所述网络当前迭代轮次及每类样本的样本数,更新所述每类样本的样本权重,其中,随着所述网络当前迭代轮次的增加,尾部类样本权重逐步增加;根据更新后的所述每类样本的样本权重,采样符合预设条件的样本,作为目标样本,其中,所述样本权重越大,被采样的概率越大。2.根据权利要求1所述的方法,其中,所述基于所述网络当前迭代轮次及所述每类样本的样本数,更新所述每类样本的样本权重,通过样本权重更新函数得到,所述样本权重更新函数公式为:其中,w为更新后的所述每类样本的样本权重,α为预设参数,Nmax为每类样本中的最大样本数,Ni为所述每类样本的样本数,M为网络迭代总轮次,j为所述网络当前迭代轮次。3.根据权利要求1或2所述的方法,其中,所述根据所述更新后的所述每类样本的样本权重,采样符合预设条件的样本,作为目标样本,包括:查找更新后的所述每类样本的样本权重中的最大权重;根据所述最大权重,得到权重阈值;随机选择训练数据集中的样本,若随机选择的样本权重大于或等于所述权重阈值,将所述随机选择的样本,作为目标样本。4.根据权利要求3所述的方法,其中,所述根据所述最大权重,得到权重阈值,包括:所述最大权重与一个随机数的乘积作为所述权重阈值,其中,所述随机数为在0至1之间的随机数。5.根据权利要求4所述的方法,其中,所述方法还包括判断当前采样的样本数量是否小于设定数量,若当前采样的样本数量小于设定数量,继续随机选择所述训练数据集中的样本,计算所述随机选择的样本权重阈值,将权重大于或等于所述权重阈值的所述随机选择的样本,作为目标样本,若当前采样的样本数量大于或等于设定数量,停止采样。6.根据权利要求4或5所述的方法,其中,所述方法还包括:统计所述训练数据集的样本类别及所述每类样本的样本数。7.一种图像识别网络训练方法,其中,所述方法包括:基于权利要求1至6中任一项所述的数据采样方法,采样网络训练样本;利用所述训练样本训练所述网络;判断所述网络当前迭代的轮次是否达到所述网络迭代总次数,若所述网络当前迭代的轮次达到所述网络迭代总次数,完成所述网络的训练,若所述网络当前迭代的轮次未达到所述网络迭代总次数,执行所述基于权利要求1至6中任一项所述的数据采样方法,得到下一轮次网络训练样本。8.一种图像识别方法,其中,所述方法包括:输入待识别样本至网络,其中,所述网络为通过权利要求7所述的图像识别网络训练方法训练后的网络;2CN110717529A权利要求书2/2页通过所述网络,得到所述待识别样本中每个样本所属的类别。9.一种数据采样装置,其中,所述装置包括:获取单元,用于获取网络当前迭代轮次;更新单元,用于基于所述网络当前迭代轮次及每类样本的样本数,更新所述每类样本的样本权重,其中,随着所述网络当前迭代轮次的增加,尾部类样本权重逐步增加;采样单元,用于根据所述更新后的所述每类样本的样本权重,采样符合预设条件的样本,作为目标样本,其中,所述样本权重越大,被采样的概率越大。10.一种电子设备,其中,所述电子设备包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行权利要求1-6中任一项所述的一种数据采样方法或权利要求7所述